新研究:大語言模型“湧現”能力不令人驚訝也不難預測


3月25日消息,一項新的研究認為,大語言模型性能的顯著提升並不令人意外,也並非無法預測,實際上這是由我們衡量人工智能性能的方式所決定的。兩年前,450位研究人員在一個名為超越模仿遊戲基準(BeyondtheImitationGameBenchmark,BIG-bench)的項目中,編制一份包含204項任務的清單,旨在測試ChatGPT等聊天機器人背後的大語言模型的性能。

0 ojyS6pZc_aIu3aoK.png

在這些任務中,大多數情況下,隨著模型規模的增大,性能呈現出可預測的平穩提升——即模型越大,性能越好。但在其他任務中,模型性能的提升卻不是那麼穩定,一段時間內性能幾乎為零,然後突然出現顯著提升,其他研究也發現類似的性能飛躍現象。

研究人員將這種現象描述為“突破性”行為,而其他人則將其比作物理學中的相變,如液態水轉變為冰。2022年8月份發表的一篇論文中指出,這些現象不僅出乎意料,而且難以預測,它們對於人工智能的安全性、潛力和風險的討論提供更多的視角。研究人員用“湧現”(emergent)一詞來描述這種僅在系統達到一定復雜程度時才出現的行為。

然而,真相可能並不那麼簡單。斯坦福大學的三位研究人員在一篇新論文中認為,這種性能的突然提升僅僅是反映我們衡量大語言模型性能的方法。他們認為,這種能力既不是不可預測的,也不是突然出現的。“這種變化比大傢想象的要容易預測得多,”斯坦福大學計算機科學傢、論文的資深作者薩恩米·科耶喬(Sanmi Koyejo)表示,“所謂的湧現更多地與我們選擇的衡量模型工作方式有關。”

1 r_fei1_rsyVhUKuFER39Cg.png1 xkEpYyYKqVkKgYjc1NE9tw.png

研究人員之所以現在才開始發現和研究這種行為,是因為這些模型已變得足夠大。大語言模型通過分析大量文本數據集——包括書籍、網絡搜索結果和維基百科等,來尋找經常共現的單詞間的聯系。模型的規模按參數數量衡量,參數越多,模型能發現的聯系就越多。GPT-2擁有15億個參數,而支持ChatGPT的GPT-3.5則使用3500億個參數。據報道,2023年3月首次亮相的GPT-4使用1.75萬億個參數,現在它也成微軟人工智能助理Microsoft Copilot的基礎模型。

這種規模的快速增長帶來性能和效率的顯著提升,沒有人會質疑規模足夠大的大語言模型能完成小型模型無法完成的任務,包括那些它們未經訓練的任務。斯坦福大學的三位研究人員將湧現看作是一種“幻覺”,他們認為,隨著規模的擴大,大語言模型自然而然應該變得更加高效;較大模型增加的復雜性使其在處理更難和更多樣化的問題時表現得更為出色。但這三位研究人員認為,這種改進是否呈現為平穩可預測的提升,或是參差不齊的突然飛躍,主要取決於所選擇的衡量標準,甚至可能是由於測試樣本的不足,而非模型內部運作機制本身。

例如,三位數加法就是一個典型例子。在2022年的BIG-bench研究中提出,研究人員報告稱,在參數較少的情況下,GPT-3和另一大語言模型LAMDA均無法準確解決加法問題。然而,當GPT-3的參數增至130億時,其性能如同開關被打開一樣突然改變。GPT-3突然間就能夠正確完成加法運算,當LAMDA的參數增至680億時也是如此。這表明,完成加法運算的能力似乎在某個參數閾值時突然出現。

但斯坦福大學的研究人員指出,之前對大語言模型的評價標準僅僅基於準確性:模型要麼能做到,要麼做不到。因此,即便模型最初能夠正確預測出大部分數字,也被判定為失敗。這種評價方式顯得有些不合理。如果任務是計算100加278,那麼結果為376顯然比-9.34要準確得多。

因此,科耶喬和他的研究合作者采用一種獎勵部分正確答案的衡量標準來測試同一任務。科耶喬表示:“我們可以問:模型預測第一個數字的準確度有多高?第二個、第三個數字呢?”

科耶喬認為這項新研究的靈感來源於他的研究生賴蘭·謝弗(RylanSchaeffer),他稱謝弗註意到大語言模型的表現隨著評估方法的不同而變化。與斯坦福大學的同學白蘭度·米蘭達(Brando Miranda)共同研究後,他們采用新的評估指標,發現隨著模型參數的增加,大語言模型在解決加法問題時預測的數字序列的準確度逐漸提高。這說明,模型解決加法問題的能力並非突然出現;換言之,這種能力的湧現並非不可預測的突然跳變,而是一個可預測的、穩步的變化過程。他們發現,當采用不同的度量標準衡量性能時,“湧現”現象就消失。

盡管如此,其他科學傢認為,這項工作並未完全排除“湧現”概念的存在。例如,美國東北大學(Northeastern University)計算機科學傢李天石指出,這三位研究人員的論文並未明確解釋在哪些度量標準或情況下,大語言模型的性能會顯示出突然的提升。她說:“因此,從這個意義上說,這些能力仍然是不可預測的。”現在在OpenAI工作的計算機科學傢傑森·魏(Jason Wei)曾編制過一份關於模型“湧現”能力的清單,也是BIG-bench論文的作者之一,他認為,早期關於“湧現”能力的說法是合理的,因為對於算術這樣的能力來說,正確的答案才是最重要的。

人工智能初創公司Anthropic的研究科學傢亞歷克斯·塔姆金(Alex Tamkin)表示:“這種探討絕對很有意思。”他認為,新論文巧妙地分解多步驟任務,以識別各個組成部分的貢獻。塔姆金說,“但這並不是全部故事。我們不能說所有這些跳變都是幻覺。我仍然認為,即使在進一步預測或使用連續指標的情況下,文獻顯示性能提升仍有不連續性。當你增加模型的規模時,仍然可以看到它以跳變的方式變得更好。”

即使如今對大語言模型中的“湧現”能力的理解可能因采用不同的衡量工具而有所改變,但對於未來更大、更復雜的大語言模型來說,情況可能會有所不同。萊斯大學的計算機科學傢胡俠表示:“當我們把大語言模型訓練到下一個層次時,它們不可避免地會從其他任務和模型中借鑒知識。”

這種對“湧現”能力的新理解不僅是研究人員需要考慮的一個抽象問題。對塔姆金而言,這直接關系到如何繼續預測大語言模型的性能。“這些技術已經如此廣泛和普及,”他說。“我希望社區將此作為一個起點,繼續強調為這些現象建立一門預測科學的重要性。我們怎樣才能不對下一代模型的出現感到驚訝呢?”(辰辰)


相關推薦

2023-04-13

佩茲-裡拉說,已經有對沖基金聯系他,希望解關於這項研究的更多信息。他還表示,隨著投資機構開始整合這項技術,如果ChatGPT預測股市走勢的能力在未來幾個月下降,他也不感到驚訝。這是因為實驗關註的是下個交易日的股

2023-03-19

一言全部答錯。尤其是第一題,沒讀懂題目,解的是 3 名研究人員發表 1 篇論文要多久。如下圖所示:直覺除法操作,測試結果如下圖所示:文心一言全部答錯。如下圖所示:證偽選擇類任務在這裡,我選擇經典的沃森四卡片測

2024-03-09

這樣的專用遷移學習技術,不僅沒人使用,甚至也沒人去研究。如今,無監督和自監督方法仍然是推動每一個LLM和多模態模型發展的“暗物質”。隻要將數據和計算任務“投入”這個無底洞,它就能給出我們需要的答案。論文地

2023-02-14

GPT標志著人工智能領域的又一次重大突破。一時間,許多研究者都開始關註ChatGPT,仔細研究它的各種能力。2月11日,斯坦福大學的計算機科學傢米哈爾·科辛斯基(Michal Kosinski)提交一篇名為《心智理論可能從大語言模型中自發

2023-04-13

的挑戰:跑贏大盤。雖然有些人將ChatGPT視為促進銷售和研究工作的一種途徑,但使用AI的投資結果並不是特別盡人意。“華爾街在將AI應用於投資方面的進展有限,盡管語言建模方面的創新可能會在未來幾年改變這一現狀。” 哥

2023-02-06

,等等。即使對於人類,這也是一個非常困難的技巧。有研究表明,虛假信息在Twitter上的傳播速度是準確信息的數倍——往往更具有煽動性、娛樂性或看起來很新穎。那麼問題來,為什麼生成式人工智能在計算機代碼上表現很

2023-04-12

關註度持續提升。OpenAI在GPT-4之前花費8個月時間進行安全研究、風險評估和迭代。也就是說,OpenAI在去年年底推出ChatGPT的時候,已經有GPT-4。一個國外博主 AI Explained 認為GPT-5的訓練時間不會很久,甚至他認為GPT-5已經可能訓練完

2023-04-10

類語言規則及其邏輯關系。目前在Transformer的加持之下,研究人員已經可以把模型規模做到百億級、千億級。這就是如今的大型語言模型(Large Language Model)。在大型語言模型當中,可以通過輸入一些上文,經過語言模型背後的

2023-11-08

11月8日消息,三名谷歌研究人員在最新提交給預印本文獻庫(ArXiv)的一篇論文中指出,人工智能領域的底層技術深度神經網絡transformer並不擅長歸納概括。Transformer是ChatGPT等人工智能工具背後大語言模型的基礎。在11月1日提交給ArX

2024-02-18

,並表示“gg人類”。打造虛擬世界模擬器此前,OpenAI的研究者一直在探索的一個難題就是,究竟怎樣在視頻數據上,應用大規模訓練的生成模型?為此,研究者同時對對持續時間、分辨率和寬高比各不相同的視頻和圖片進行訓

2024-02-18

,並表示“gg人類”。打造虛擬世界模擬器此前,OpenAI的研究者一直在探索的一個難題就是,究竟怎樣在視頻數據上,應用大規模訓練的生成模型?為此,研究者同時對對持續時間、分辨率和寬高比各不相同的視頻和圖片進行訓

2024-02-17

,並表示“gg人類”。打造虛擬世界模擬器此前,OpenAI的研究者一直在探索的一個難題就是,究竟怎樣在視頻數據上,應用大規模訓練的生成模型?為此,研究者同時對對持續時間、分辨率和寬高比各不相同的視頻和圖片進行訓

2024-02-17

,並表示“gg人類”。打造虛擬世界模擬器此前,OpenAI的研究者一直在探索的一個難題就是,究竟怎樣在視頻數據上,應用大規模訓練的生成模型?為此,研究者同時對對持續時間、分辨率和寬高比各不相同的視頻和圖片進行訓

2024-05-07

200 多篇論文,Google Scholar 的引用超過3 萬次。他一直都是研究員,不是產品經理。從 MiniMax 所在的大廈走出來,不遠處就是閆俊傑的前雇主——商湯科技的總部大樓。閆曾是商湯科技的副總裁。在那裡,閆俊傑主持過商湯“數字