谷歌又鬧大烏龍 Jeff Dean參與的新模型竟搞錯Hinton生日


最近,谷歌研究員發佈關於指令微調的最新工作!然而卻宣傳圖中出現可笑的烏龍。幾個小時之前,谷歌大腦的研究員們非常開心地曬出自己最新的研究成果:“我們新開源的語言模型Flan-T5,在對1,800多種語言的任務進行指令微調後,顯著提高prompt和多步推理的能力。”


然而,就在這張精心制作的“宣傳圖”上,竟藏著一個讓人哭笑不得的bug!


請註意看Geoffrey Hinton的出生日期:


但實際上,Hinton出生於1947年……


雖然沒有必然聯系,但是Google自己的模型,竟然會把自傢大佬的生日搞錯?

馬庫斯同志看完直接就驚:你們Google,沒人負責審核的嗎……


理論上,這篇擁有31位作者,外加Jeff Dean這種大佬參與的論文,不應該發生這種“低級錯誤”才對啊。


“復制”的時候“打錯”而已!

很快,論文的共同一作就在馬庫斯的推文下面進行回復:“我們都知道,模型的輸出並不總是符合事實。我們正在進行負責任的AI評估,一旦有結果,我們將立即更新論文。”


沒過多久,這位作者刪除上面那條推文,並更新留言稱:“這隻是在把模型的輸出復制到Twitter上時,『打錯』而已。”


對此,有網友調侃道:“不好意思,你能不能給我翻譯翻譯,什麼叫『復制』來著?”


當然,在查看原文之後可以發現,“圖1”所示的生日,確實沒錯。

至於在宣傳圖中是如何從“1947”變成“1963”的,大概隻有做圖的那位朋友自己知道。


隨後,馬庫斯也刪除自己的這條推文。


世界重歸平靜,就像什麼也沒有發生一樣。

隻留下Google研究員自己推文下面的這條在風中飄搖——


擴展指令微調語言模型

既然誤會解除,我們就讓話題重新回到論文本身上來吧。

去年,Google推出一個參數量隻有1370億的微調語言網絡FLAN(fine-tuned language net)。


https://arxiv.org/abs/2109.01652

FLAN是Base LM的指令調優(instruction-tuned)版本。指令調優管道混合所有數據集,並從每個數據集中隨機抽取樣本。

研究人員稱,這種指令調節(instruction tuning)通過教模型如何執行指令描述的任務來提高模型處理和理解自然語言的能力。

結果顯示,在許多有難度的基準測試中,FLAN的性能都大幅超過GPT-3。


這次,Google將語言模型進行拓展之後,成功刷新不少基準測試的SOTA。

比如,在1.8K任務上進行指令微調的Flan-PaLM 540B,性能明顯優於標準的PALM 540B(平均 + 9.4%),並且在5-shot的MMLU上,Flan-PaLM也實現75.2%的準確率。

此外,作者還在論文中公開發佈Flan-T5檢查點。即便是與更大的模型(如PaLM 62B)相比,Flan-T5也能實現強大的小樣本性能。


論文地址:https://arxiv.org/abs/2210.11416

總結來說,作者通過以下三種方式擴展指令微調:

擴展到540B模型

擴展到1.8K的微調任務

在思維鏈(CoT)數據上進行微調

作者發現具有上述方面的指令微調顯著提高各種模型類(PaLM、T5、U-PaLM)、prompt設置(zero-shot、few-shot、CoT)和評估基準(MMLU、BBH、 TyDiQA、MGSM、開放式生成)。


這次的微調數據包括473個數據集、146個任務類別和1,836個總任務。

作者是通過結合之前工作中的四種混合(Muffin、T0-SF、NIV2 和 CoT),縮放(scale)成下圖中的1836個微調任務。


在研究中,微調數據格式如下圖這樣組合。研究者在有樣本/無樣本、有思想鏈/無思想鏈的情況下進行微調。要註意的是,其中隻有九個思維鏈(CoT)數據集使用CoT格式。


第四種微調數據的混合涉及CoT註釋,作者用它來探索CoT註釋的微調是否可以提高看不見的推理任務的性能。

作者從先前的工作中創建9個數據集的新混合,然後由人類評估者手動為訓練語料庫編寫CoT註釋。這9個數據集包括算數推理、多跳推理(multi-hop reasoning)和自然語言推理等。

作者在廣泛的模型中應用指令微調,包括T5、PaLM和U-PaLM。對於每個模型,作者都采用相同的訓練過程,使用恒定的學習率,並使用Adafactor優化器進行微調。

從下表中可以看出,用於微調的計算量僅占訓練計算的一小部分。


作者根據模型的大小和微調任務的數量,在保留任務的性能上檢測縮放的影響。

作者從對三種大小的PaLM模型(8B/62B/540B)進行實驗,從任務最少的混合開始,一次添加任務混合,然後再到任務最多的混合(CoT、Muffin、T0-SF 和 NIV2)。

作者發現,擴展指令微調後,模型大小和任務數量的擴展都會大大改善性能。

是的,繼續擴展指令微調就是最關鍵的要點!

不過,在282個任務之後,收益開始略微變小。


從下表中可以看出,對於三種大小的模型,多任務指令微調後,相比沒有微調時,性能有很大的提高,性能增益范圍從9.4%到15.5%。

其次,增加微調數量可以提高性能,盡管大部分的改進來自282個任務。

最後,將模型規模增加一個數量級(8B→62B或62B→540B)會顯著提高微調和非微調模型的性能。


為什麼282個任務之後增益就變小呢?有兩種解釋。

一是附加任務不夠多樣化,因此沒有為模型提供新知識。

二是多任務指令微調的大部分收益,是因為模型學習更好地表達它在預訓練中已經知道的知識,而282個以上的任務並沒有太大的幫助。

另外,作者還探討在指令微調混合中包含思想鏈(CoT)數據的效果。


可以看出,Flan-PaLM在所有評估基準上都優於PaLM。

不過令人驚訝的是,以前的指令微調方法(如FLAN,T0)顯著降低non-CoT的性能。

對此的解決方案是,隻需在微調混合中添加9個CoT數據集,就可以在所有評估中獲得更好的性能。


雖然思維鏈(Chain-of-Thought)prompting通常非常有效,但隻能編寫少量樣本,而且零樣本CoT並不總是有效果。

而Google研究者的CoT微調顯著提高零樣本推理能力,比如常識推理。


為展示方法的通用性,研究人員訓練T5、PaLM和U-PaLM。其中參數量的覆蓋范圍也非常廣,從8000萬到5400億。

結果證明,所有這些模型都得到顯著提升。


在以往,開箱即用的預訓練語言模型可用性通常都很差,比如對輸入的prompt沒有反應。

Google的研究者要求人類評估者來評估開放式生成問題的“模型可用性”。

結果顯示,Flan-PaLM 的可用性比PaLM基礎模型要高79%。


此外,指令微調還補充其他的模型適應技術,比如UL2R。

同樣的,Flan-U-PaLM取得很多優秀的結果。


論文地址:https://arxiv.org/abs/2210.11399

Google的另一起“翻車”事件

可以說,剛剛發生的這個劇情,既視感相當強!

沒錯,就在10月19日,當GooglePixel的官方賬號試圖挖苦蘋果CEO庫克時,被網友抓包:是用iPhone發的推文……


顯然,這種事情早已不是第一次。

2013年,T-Mobile的CEO就在Twitter上對三星Note 3贊不絕口,但用的是iPhone。

同樣是2013年,黑莓的創意總監Alicia Keys在發佈會上說,她已經拋棄自己之前的iPhone,換黑莓Z10。隨後,就被發現用iPhone發推,甚至在被抓到後發推狡辯說是因為自己被黑。

三星,也不例外:


而且,相比於Google的這次刪推,三星當時做得更加決絕:直接刪號!


看來,營銷課程有必要加上這樣的一條戒律:如果你要推廣一個產品,請不要用競爭對手的產品來做。

這並不是一個難以傳授的信息,甚至還可以做得直白:在推銷其他產品時,手裡請不要拿著iPhone。


相關推薦

2022-08-03

像人一樣很多時候隻需小數據就可以進行預測。不久前,谷歌公司(以下簡稱谷歌)AI工程師萊莫因認為對話應用語言模型LAMDA“活”“其意識迎來覺醒”,並對此出具長達21頁的證據。他認為,LaMDA擁有七八歲孩童的智力,並相

2023-05-05

5月4日消息,浙江海寧的一位肖先生以為自己遇到天上掉餡餅”的好事,據其講述,自己的銀行卡從2018年4月開始,每個月都會匯入一筆轉賬,而且均來自同一個陌生人。據解,肖先生此前在一傢服裝公司技術部門上班,2018年4月

2022-09-13

蘋果官方網站今天鬧一次尷尬的烏龍事件,包括所有iPhone在內的大量產品,被錯誤地標價為77777美元/月。受影響的產品包括全部在售iPhone手機,以及新發佈的AppleWatchSeries8、AppleWatchUltra、AirPodsPro2,商品介紹頁面全部顯示77777美元

2024-03-24

快科技3月23日消息,很多人都非常好奇究竟有沒有外星人和外星飛船,從概率上來講可能存在,但目前誰也無法給出定論,隻能通過研究來尋找一些線索,比如隕石。早在2014年1月份,一顆流星劃過西太平洋上空,並墜落巴佈亞

2023-05-02

父”之稱的傑弗裡辛頓(Geoffrey Hinton)周一宣佈,他已經從谷歌公司離職。半個世紀以來,辛頓一直在培養ChatGPT等聊天機器人背後的核心技術。但是現在,他擔心AI會造成嚴重危害。鳳凰網科技《AI哨所》解到,辛頓是AI先鋒。2012

2023-03-17

動最新人工智能(AI)技術與主要業務結合。不止是挑戰谷歌的新版搜索引擎必應(Bing),其他微軟熱門產品也要喝OpenAI最新版AI模型GPT-4的“頭啖湯”。美東時間3月16日周四,微軟發佈GPT-4平臺支持的新AI功能,名為Copilot,它將

2023-11-02

的時間裡就積累1億用戶,其中許多人都被這個令人驚嘆的新玩具弄得眼花繚亂。存儲公司Box的首席執行官Aaron Levie在Twitter上總結ChatGPT發佈後一周後整個行業的氛圍:“ChatGPT是技術領域罕見的時刻之一,在這裡你可以看到未來一

2023-05-12

過去兩個交易日,谷歌母公司Alphabet收盤漲幅連續超過4%,股價已經悄然回升到去年8月以來的最高價位,市值再次站上1.43萬億美元。看起來,谷歌在I/O大會上交出的AI成績單得到資本市場的認可。而這正是谷歌高層所希望傳遞出

2022-06-30

……把它給畫出來呢?(讀都讀不出來,還畫畫???)谷歌最新提出來的一個 AI——Parti,它就能輕松 hold 住這事。在把這個單詞“投喂”給 Parti 後,它就能有模有樣地生成多張合情合理的肺部疾病圖片:但這隻是 Parti 小試

2023-01-22

聊天機器人更快普及。多年來,微軟始終在AI競賽中追趕谷歌,這傢軟件巨頭希望通過對OpenAI的大筆投資,實現跨步前進。OpenAI致力於開發AI模型,這些模型不僅可以幫助人們設定電子郵件的格式,還可以分析Excel電子表格,生成

2023-03-18

的第一時間就公開所有貢獻者名單,機器之心整理一部分參與工作的華人學者。如果遺漏,歡迎補充。預訓練組Trevor CaiTrevor Cai 是 GPT-4 項目中吞吐量團隊的負責人。Trevor Cai 本碩畢業於南加州大學,2022 年 3 月加入 OpenAI。在加入

2023-02-01

谷歌正在測試新的人工智能聊天產品,這些產品可能會影響未來的公共產品發佈。其中包括一種新的聊天機器人,以及一種可能將其整合到搜索引擎中的方法。該公司正在其雲計算部門下開展一個名為“Atlas”的項目,這是對熱

2023-11-01

遙遠,因為那時的計算機太弱小。”AlexNet取得成功後,谷歌來敲門。谷歌收購辛頓的公司DNNresearch,並聘請Sutskever。在谷歌,Sutskever展示深度學習的模式識別能力可以應用於數據序列,如單詞和句子,以及圖像。Sutskever的前同事

2023-03-30

據報道,OpenAI不僅憑借人工智能聊天機器人成功超越谷歌,還意外促成另外一件原本幾乎不可能發生的事情:這迫使Alphabet旗下谷歌以及DeepMind的兩大人工智能研究團隊暫時擱置多年的恩怨,決定聯手追趕OpenAI。知情人士透露,