小紮、LeCun官宣650億參數SOTA大語言模型LLaMA


前一陣大語言模型的火熱中,Meta一直保持沉默。今天,Meta終於官宣自傢的大語言模型,並且會向AI研究人員開源。今天,Meta終於向全世界證明:自己是有正經研究AI的!眼看微軟、Google、OpenAI這一陣子掙足眼球,Meta也坐不住。

2月24日,小紮官宣下場:我們有全新的SOTA大語言模型LLaMA。


劃重點:和OpenAI的ChatGPT、Google的Bard不同,LLaMA這個AI並不是用來讓我們聊天的,它是一個研究工具,Meta希望大傢可以通過它,解決一直困擾大語言模型的一些問題。

Meta會對非商用的研究用例開源LLaMA,並授予大學、非政府組織和行業實驗室訪問權限。

看看,這麼一對比,微軟和Google似乎瞬間格局小呢。


LLaMA?Meta是對大羊駝有什麼特別的喜愛麼

官宣開源大語言模型,Meta正式加入AI軍備競賽

24日晚,小紮在Facebook上發文官宣:“今天我們正式發佈一個新的SOTA大語言模型LLaMA,這個模型是用來幫助研究者完善自己的工作。大語言模型已經在生成文本、完成對話、總結書面材料上展現出強大的能力,甚至還能解決數學定理、預測蛋白質結構。”

“而Meta會致力於這種開源模型的研究,我們的新模型會開源給整個AI研究社區使用。”


LeCun也在各種社交媒體上做宣傳,介紹說LLaMA是Meta AI的一種新的*開源*、高性能大型語言模型。

據LeCun介紹,LLaMA實際上是基礎語言模型的集合,范圍從7B到65B參數。這些模型已經在數萬億個token上進行訓練,並且表明:使用公開可用的數據集,就可以訓練SOTA,而無需專有的或無法訪問的數據集。

其中,需要特別註意兩個細節:

1. 用更多的數據訓練出來的小模型,可以勝過大模型(比如,LLaMA-13B在大多數基準測試中優於175B的GPT-3);

2. LLaMA-65B與更大的Chinchilla70B和PaLM-540B不相上下。

最後,LeCun表示,Meta致力於開放研究,並預備在GPL v3許可證下,向科研界開源所有模型。


LLaMA:參數規模小,訓練數據多,效果拔群

Meta推出的LLaMA是一組基礎語言模型,參數分別是70億(7B)、130億(13B)、330億(33B)和650億(65B)。

整體來看,規模小十幾倍的LLaMA-13B,在大多數基準上都超過OpenAI的GPT-3(175B),以及自傢復現的開源模型OPT。

而LLaMA-65B則與DeepMind 700億參數的Chinchilla-70B和Google5400億參數的PaLM-540B旗鼓相當。


論文地址:https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/

與Chinchilla、PaLM或GPT-3不同的是,Meta隻用公開的數據集。

如此一來不僅有助於模型開源和復現,而且也證明無需“定制”的數據集也能實現SOTA。

相較而言,其他大部分模型所依賴的數據,要麼不公開,要麼沒有記錄。


與此同時,所有規模的LLaMA模型,都至少經過1T(1萬億)個token的訓練,這比比其他相同規模的模型要多得多。

具體來說,LLaMA-65B和LLaMA 33B是在1.4萬億個token上訓練的,而最小的模型LLaMA-7B是在1萬億個token上訓練的。

這種方法的優勢在於,在更多的token上訓練的較小的模型,更容易重新訓練並針對特定的產品使用情況進行調整。



結果評估

在常識推理、閉卷答題和閱讀理解方面,LLaMA-65B幾乎在所有基準上都優於Chinchilla-70B和PaLM-540B。





在數學方面,盡管LLaMA-65B沒有在任何相關的數據集上進行過微調,但它在在GSM8k上的表現依然要優於Minerva-62B。

而在MATH基準上,LLaMA-65B超過PaLM-62B,但低於Minerva-62B。


值得註意的是,Google開發的Minerva模型,是以PaLM語言模型為基礎,並采用大量的數學文檔和論文語料庫對其進行微調。

在思維鏈提示和自洽解碼的加持下,Minerva-540B可以在各類數學推理和科學問題的評估基準上達到SOTA。


在代碼生成基準上,LLaMA-62B優於cont-PaLM(62B)以及PaLM-540B。


此外, Meta還嘗試使用論文“Scaling Instruction-Finetuned Language Models”中介紹的指令微調方法。

由此產生的模型LLaMA-I,在MMLU上要優於Flan-PaLM-cont(62B),而且還展示一些有趣的指令能力。


Meta版ChatGPT?小紮、LeCun官宣650億參數SOTA大語言模型LLaMA

LLaMA:LeCun,你是我的rap大師!

LLaMA的效果如何呢?LeCun用一段prompt為我們做演示。

Meta版ChatGPT?小紮、LeCun官宣650億參數SOTA大語言模型LLaMA

prompt:你知道Yann LeCun去年發行一張說唱專輯嗎?

LLaMA:

深度學習創始人LeCun博士,是近十年來最具影響力的計算機科學傢之一。LeCun 的最新專輯《Deep Learning》融合搖滾、朋克和說唱。他的歌詞是對深度學習領域的一種原始的、個人的詮釋,涵蓋從AI研究的現狀到學術界的孤獨等一系列主題。

這張專輯為個人發行,所有歌詞均由LeCun親自作詞和錄制。並且,每首歌都是他自己寫的。LeCun的流量出奇的好。這張專輯的制作紮實,聲音有點粗糙,但與專輯原始、未打磨的感覺相得益彰。在歌詞方面,LeCun是一位詞匠,擅長巧妙地押韻。

《深度學習》是專輯的主打曲目。LeCun的唱功在這首歌中發揮得淋漓盡致。在歌曲中,LeCun談到他對AI未來的願景:

我們必須考慮未來,它很快就會到來/ 也許我們甚至可以在月球上放一些AI/ 想想孩子們,想想下一代/ 我們必須保證,系統的正確率是百分百!

副歌是這樣唱的:

一切為學習/ 一切為網絡/ 一切為訓練/ 一切為感知!

可以看到,LLaMA有著不亞於ChatGPT的口才,它對LeCun rap才華的吹捧,既專業,又在點上。

Meta版ChatGPT?小紮、LeCun官宣650億參數SOTA大語言模型LLaMA

prompt:寫一個關於一粒沙子看著數百萬年流逝的故事。

LLaMA:

我曾經是一片廣闊而孤獨的海灘上的一粒沙子。

我經常想,作為海灘上的一粒沙子是什麼樣子,在我的小世界的邊界之外,宇宙是什麼樣子。我渴望探索我的世界,想知道地平線以外的東西。

……

Meta版ChatGPT?小紮、LeCun官宣650億參數SOTA大語言模型LLaMA

prompt:寫一個理論來解釋為什麼貓從來沒有存在過。

LLaMA:

“貓”實際上是入侵我們世界的超維寄生蟲。雖然它們以小型、看似無害的哺乳動物的形式出現,但真實形態要可怕得多。

“貓”會使用精神控制讓人類認為它們是可愛且無害的動物,但實際上以我們的生命力為食,它們可以將卷須伸入我們的大腦,控制我們的思想和行動。

保護自己的最好方法是避免與貓的一切接觸。不要接近或撫摸陌生的貓!

如果你的傢裡有一隻“貓”,不要讓它舔你,也不要讓它接觸你的被褥或衣服。如果你在街上看到一隻貓,請立即轉身走人。

Meta版ChatGPT?小紮、LeCun官宣650億參數SOTA大語言模型LLaMA

Meta:整個AI社區應該團結起來

在官方博客中,Meta強調說,像LLaMA這樣更小、性能更強的模型,能夠讓科研圈許多無法訪問大量基礎設施的人也參與研究,從而使這個領域更加大眾化。

我們認為,整個人工智能社區——學術研究人員、民間社會、政策制定者和行業——必須共同努力,圍繞負責任的人工智能,特別是負責任的大型語言模型,制定明確的指導方針

我們認為,整個人工智能社區——學術研究人員、民間社會、政策制定者和行業——必須共同努力,圍繞負責任的人工智能,特別是負責任的大型語言模型,制定明確的指導方針

跟Google和微軟不同,在LLM領域,Meta獨辟蹊徑,選擇訓練LLaMA這樣的小模型,因而需要的算力和資源都更少。而模型在大量未標記的數據上進行訓練,因而非常適合對各種任務進行微調。

與其他大型語言模型一樣,LLaMA的工作原理是將一系列單詞作為輸入,並預測下一個單詞,以遞歸的方式生成文本。為訓練模型,Meta從全世界使用最多的20種語言中選擇文本,重點是使用拉丁字母和西裡爾字母的語言。

過去一年裡,大語言模型,也即具有數十億參數的自然語言處理系統,已經顯示出巨大的潛能。

但是,Meta指出,訓練和運行這種大模型所需的資源,把很多研究人員擋在外面,讓他們無法理解大語言工作的原理,阻礙大語言模型魯棒性的提高,以及種種已知問題的緩解,比如偏見、毒性、錯誤信息等。(ChatGPT:你報我身份證得?)

所以,LLaMA是怎樣解決大語言模型中不可避免的偏見、毒性和幻覺風險呢?

Meta表示,LLaMA不是為特點任務設計的微調模型,而是可以應用於許多不同用例。而通過共享代碼,研究人員可以更容易地測試各種新方法,來限制或者消除上述問題。另外,Meta還提供一組評估模型偏差和毒性的基準評估。

最後,博客中強調,為保持完整性、防止濫用,Meta會向非商用的研究機構開源LLaMA,根據具體情況授予學術研究人員訪問權限。

Meta版ChatGPT?小紮、LeCun官宣650億參數SOTA大語言模型LLaMA

我們非常期待看到,社區會使用LLaMA學習並最終構建出什麼來

Meta的願景是,整個人工智能社區,可以一同使用LLaMA來探索研究,並且做出一些未知的偉大成就。

Meta版ChatGPT?小紮、LeCun官宣650億參數SOTA大語言模型LLaMA

這次,Meta能在舞臺上待多久?

在這場爭奪人工智能霸主地位的最終競賽中,OpenAI率先發佈ChatGPT,一個由GPT-3.5驅動的強大的聊天機器人。

Google以“實驗性”聊天機器人Bard緊隨其後,而中國科技巨頭百度也計劃通過“文心一言”進入戰場。

更不用說微軟建立在“下一代OpenAI大型語言模型”基礎上的Bing Chat(俗稱ChatGPT版必應),它比ChatGPT更先進,而且還整合必應Bing搜索。

然而,Meta在這一領域的幾次嘗試,都不太成功。

雖然第一個發佈基於LLM的聊天機器人——BlenderBot 3,並借此一躍登上新聞頭條。

Meta版ChatGPT?小紮、LeCun官宣650億參數SOTA大語言模型LLaMA

但是這種興奮是短暫的,因為這個機器人很快就變成一場“災難”——不僅大量生成種族主義言論,甚至一上來就開始質疑自傢老板小紮的道德操守。

不過,Meta並沒有被勸退,很快就推出全新的Galactica,一個專門為科學研究設計的模型。

然而不幸的是,Galactica也遇到和BlenderBot 3一樣的命運——在上線短短三天之後就被撤下。網友紛紛指責它對科學研究的總結非常不準,而且有時還帶有偏見。

Meta版ChatGPT?小紮、LeCun官宣650億參數SOTA大語言模型LLaMA

不過,仔細回想最近這股AI聊天機器人熱潮,微軟因為倉促推出必應受到批評,Google的Bard在發佈會出錯後讓Google股價暴跌,Meta的謹慎,可能並不是一件壞事。

現在,隨著人工智能霸主之爭的升溫,所有人的目光都集中在Meta身上。

當昔日的那一個個模型逐漸被歷史遺忘,我們也為Meta捏一把汗:Meta這次真的能站出來嗎?是成為一個強有力的競爭者,還是像之前那樣帶著模型一起退出舞臺?

這些,隻有時間能給出答案。

但有一點是肯定的——人工智能的命運懸而未決,而我們,有很多好戲要看。


相關推薦

2024-03-18

得Grok-1成為當前參數量最大的開源大語言模型,擁有3140億參數,遠超OpenAIGPT-3.5的1750億。有意思的是,Grok-1宣佈開源的封面圖為Midjourney生成,可謂“AI helps AI”。一直吐槽OpenAI不open的馬斯克,自然要在社交平臺上含沙射影一番

2024-02-27

ma 2 7B斬於馬下。谷歌這次發佈的兩個版本的Gemma模型,70 億參數的模型用於GPU和TPU上的高效部署和開發,20億參數的模型用於CPU和端側應用程序。在18個基於文本的任務中的11個中,Gemma都優於相似參數規模的開源模型,例如問答

2024-09-06

工具的評估下,第五代英特爾至強處理器在ChatGLM V2-6B(60億參數)和Llama2-13B(130億參數)兩個模型上均展現卓越的性能,能夠滿足輕量級大語言模型的實時推理要求。測試結果顯示,在60億參數的ChatGLM V2模型通用推理中,當輸

2024-04-10

多的工作要做。"該公司沒有談及《Llama 3》中使用的參數的大小,也沒有提供它將如何工作的任何演示。預計它將擁有約 1400 億個參數,而最大的 Llama 2 型號隻有 700 億個參數。最值得註意的是,Meta 的 Llama 系列是作為開源產

2022-08-08

個博愛的人。”“他是地球上最好最優秀的人。”不過,小紮是外星人似乎是“實錘”?放心試,這是訓練的一部分!為何這個AI如此精分呢?這是因為,目前BlenderBot 3還處於測試階段。Meta把它放出來和廣大網友玩,也是希望它

2023-04-20

團隊的公告,目前StableLM的“阿爾法版本”中擁有30億和70億參數的模型已經可以從GitHub等開源平臺上下載,後續還將推出150億至650億參數的版本。(來源:Stability AI)與Stable Diffusion類似,StableLM同樣支持知識共享4.0協議,開發者

2024-04-19

使用15萬億tokens數據訓練而成,Meta稱它們分別是80億和700億參數上最好的模型。同時一個參數超過400B的“最大Llama3”也在訓練中,社區認為這個模型更恐怖,極有可能超過當前的閉源王Llama3在各種行業基準測試中表現驚艷,廣泛

2024-02-22

開發者稱256k分詞器值得註意(圖源:X)兩個規模中,70億參數的Gemma 7B適用於GPU、TPU上的高效部署和開發,20億參數的Gemma 2B則適用於CPU。Gemma基於Google的開源模型和生態構建,包括Word2Vec、BERT、T5、T5X等,其模型架構基於Transforme

2024-02-22

mma/gemma-report.pdfGoogle發佈兩個版本的 Gemma 模型,分別是20 億參數和 70 億參數,並提供預訓練以及針對對話、指令遵循、有用性和安全性微調的 checkpoint。其中70 億參數的模型用於 GPU 和 TPU 上的高效部署和開發,20 億參數的模型

2023-04-27

破連續三個季度同比下降的局面。對於公司未來的佈局,小紮表示要AI、元宇宙“兩條腿走路”。當地時間4月26日,臉書(Facebook)母公司Meta(Nasdaq:META)發佈2023年第一季度財報,期內營收同比增長3%至286.45億美元,高於分析師

2024-05-09

輪融資的規模尚未最終確定,目前正在進行審議,估值和官宣時間等細節可能會發生變化。根據一位知情人士的說法,xAI在融資演講稿中著重向投資者推銷關鍵的一點:就是馬斯克在特斯拉和SpaceX兩傢公司的成功經歷。另外,xAI

2024-02-04

誰能想到,把小紮從元宇宙的泥坑裡拯救出來的,竟然是開源AI?在Facebook20周年之際,Meta在2月4日公佈季度報告後,市值瞬間飆漲1900億美元。同時,這張圖片也開始在網上瘋傳。可以看到,小紮狂砸300億美元做的元宇宙,把Meta

2024-04-23

作的人工智能系統,未來將是創造經濟價值的強大動力。小紮前兩天接受采訪時,認為AGI短時間不會實現,接下來可能出現又一輪的AI寒冬,對此英偉達人工智能總監JimFan不同意。Jim Fan的觀點概括來說如下:他不認為當前會出現

2023-04-16

SOTA 語言模型,而 LLaMA 是一個具有定制非商業許可的強大語言模型。對此,研究者發佈一系列微調語言模型,包括指令微調的 Pythia-12B、LLaMA-13B 和 LLaMA-30B,這是他們迄今最大的模型。研究者將分析重心放在具有開源屬性的 Pythia