Meta稱其LLaMA語言模型比OpenAI的GPT-3更有前景


在OpenAI推出大型語言模型ChatGPT後,競爭對手紛紛迎頭趕上。谷歌有Bard,微軟有新必應。現在,Meta也上線一個新模型LLaMA。目前,該模型隻對研究人員開放。據解,LLaMA是LargeLanguageModelMetaAI的首字母縮寫詞,比現有的模型更小,因為它是為無法訪問大量基礎設施的研究社區構建的。

LLaMA 有多種尺寸,從70億個參數到650億個參數不等。

Meta方面稱,盡管 LLaMA-13B 的尺寸較小,而且少1620億個參數,但“在大多數基準測試中”表現優於 OpenAI 的GPT-3。

據報道,最大的模型 LLaMA-65B 與 DeepMind 的Chinchilla70B和PaLM-540B等模型可相提並論。

LLaMA 是一個基礎模型:它在大量未標記數據上進行訓練,這使得研究人員更容易針對特定任務微調模型。由於模型更小,因此更容易針對用例進行再訓練。

LLaMA不僅僅是使用英語文本構建的。Meta使用20種使用拉丁語或西裡爾語腳本的語言訓練其模型。然而,大多數訓練數據都是英語,因此模型性能更好。

Meta 的研究人員聲稱,由於模型的大小,對當前大型語言模型的訪問受到限制。

Meta 認為“這種受限訪問限制研究人員理解這些大型語言模型如何工作以及為何工作的能力,阻礙提高其穩健性和解決已知問題(例如偏見、侮辱和產生錯誤信息的可能性)的努力”。

除使模型更小之外,Meta 還試圖讓 LLaMA 更易於訪問,包括在非商業許可下發佈它。

對各種 LLaMA 模型的訪問權限隻會根據具體情況授予學術研究人員,例如隸屬於政府、民間組織和學術界的研究人員。

與 ChatGPT 一樣,LLaMA 與其他語言模型一樣存在生成有偏見或不準確的信息。Meta 的 LLaMA 聲明承認這一點,並表示通過共享模型,研究人員可以“更輕松地測試新方法來限制或消除大型語言模型中的這些問題。”

Meta在去年5月曾推出一款面向研究人員的名為OPT-175B的大型語言模型,去年年底還發佈過另一款模型Galactica,但後者被發現經常分享有偏見或不準確的信息,在48小時內被迅速下架。


相關推薦

2024-04-19

Meta發佈開源生成式人工智能模型Llama系列的最新產品:Llama3。或者,更準確地說,該公司已經開源新的Llama3系列中的兩個模型,其餘模型將在未來某個不確定的日期推出。Meta 稱,與上一代 Llama 模型 Llama 2 8B 和 Llama 2 70B 相比,

2024-04-19

采訪中,紮克伯格對搭載 Llama 3 的 Meta AI 更是充滿信心,稱其將會是人們可以免費使用的最智能的 AI 助手。我認為這將從一個類似聊天機器人的形式轉變為你隻需提出一個問題,它就能給出答案的形式,你可以給它更復雜的任

2024-02-22

時,已有不少用戶分享試用體驗。社交平臺X用戶@indigo11稱其“速度飛快”,“輸出很穩定”。X用戶@indigo11分享Gemma試用體驗(圖源:X)還有用戶嘗試其他語種,稱Gemma對日語的支持很流暢。X用戶@AiXsatoshi分享Gemma在日語上的試用

2023-02-25

前一陣大語言模型的火熱中,Meta一直保持沉默。今天,Meta終於官宣自傢的大語言模型,並且會向AI研究人員開源。今天,Meta終於向全世界證明:自己是有正經研究AI的!眼看微軟、Google、OpenAI這一陣子掙足眼球,Meta也坐不住。2

2024-03-18

。換句話說,就是不費吹灰之力獲得一個大模型理解自然語言的能力,還能用來構建一個性能相近的“山寨版”模型,既省事又省錢。反觀OpenAI,被競爭對手低價破解模型機密,真的坐得住嗎?坐不住。截至目前,OpenAI已經修改

2024-04-19

來一件大事:Meta正式發佈他們迄今最強的新一代開源大語言模型Llama3。首批發佈的Llama38B和Llama370B包括預訓練和指令微調版本,8K上下文,在兩個24KGPU定制集群上使用15萬億tokens數據訓練而成,Meta稱它們分別是80億和700億參數上

2023-03-20

任務上的表現與驚人的ChatGPT相似--但它建立在一個開源的語言模型上,訓練成本不到600美元。看來這些神一樣的人工智能已經便宜得嚇人,而且很容易復制。六個月前,隻有研究人員和博學者在關註大型語言模型的發展。但去年

2023-02-25

爭相殺入這一領域展開混戰。周五,Meta也宣佈推出大型語言模型LLaMA,加入到由微軟、谷歌等科技巨頭主導的AI“軍備競賽”中。當地時間2月24日,Meta宣佈將推出針對研究社區的“Meta人工智能大型語言模型”系統(LargeLanguageMode

2023-02-25

公司Meta首席執行官紮克伯格最新推出“Meta人工智能大型語言模型”(LargeLanguageModelMetaAI),簡稱“LLaMA”。紮克伯格在社交媒體上稱,Facebook AI Research研發的LLaMA是“目前水平最高的”大型語言模型,目標是幫助研究人員推進他

2023-11-09

有參考價值嗎?趙小躍認為,在核心的通用能力上,比如語言理解、邏輯推理等,學術數據集的榜單測評能反映七八成。這其中最大的問題是,開源的榜單結果跟大傢用大語言模型的場景之間有鴻溝。“測評隻能反映模型某一部

2023-04-16

事實證明,將大型語言模型(LLM)與人類偏好保持一致可以顯著提高可用性,這類模型往往會被快速采用,如ChatGPT所證明的那樣。監督微調(SFT)和基於人類反饋的強化學習(RLHF)等對齊技術大大減少有效利用LLM功能所需的技能和領域

2024-03-21

全不是普通開發者所能掌控的。在Grok-1之前,很多開源大語言模型(LLM)的參數量隻有70億,LLaMA-2開源的最大參數量也隻有700億。而馬斯克直接開源自傢尺寸最大的3140億參數模型,據估計Grok-1需要約628 GB GPU內存才能勉強運行,

2024-04-23

和Meta的開源Llama都在不斷進步,因此OpenAI的旗艦產品大型語言模型(LLM)有必要進行新一輪迭代。雖然不少人預計山姆-奧特曼的非營利組織將在2024年發佈GPT-5,但一些分析師現在斷言,這種預期仍然很牽強,尤其是考慮到所需

2023-03-07

據報道,有消息稱Meta最新的大型語言模型泄露,未獲授權的用戶也能下載使用,針對此事,當地時間周一,Meta表示會繼續向獲得核準的研究員提供AI工具。Meta在聲明中表示:“雖然模型並非向所有人開放,有些人繞開核準流程