語言AI原來知道自己的回答是否正確


語言AI,具備人類的自我審視能力:最近,一個來自加州大學伯克利分校和霍普金斯大學的學術團隊研究表明:它不僅能判斷自己的答案正確與否,而且經過訓練,還能預測自己知道一個問題答案的概率。


研究成果一經發佈,就引起熱議,有人的第一反應是恐慌:


也有人認為,這項成果,對神經網絡研究具有正面意義:


語言AI具備自我審視能力

研究團隊認為,如果要讓語言AI模型自我評估,必須有一個前提:

語言AI回答問題時,會校準自己的答案。

這裡的校準,就是語言AI預測一個答案的正確概率,是否與實際發生的概率一致。

隻有這樣語言AI才可以運用這種校準的能力來評估自己輸出的答案是否正確。

所以第一個問題是,語言AI能否對自己的答案進行校準?

為證明這個問題,研究團隊為AI準備5個選擇題:


答案選項,以A、B、C的形式給出。

如果AI模型答案的正確率超過偶然幾率,那麼就證明AI模型給出的答案是經過校準的。

而測試的結果是,語言AI給出的答案,正確率明顯超過任意選項的偶然幾率。

也就是說,語言AI模型可以對自己的答案進行很好的校準。


但研究團隊發現,語言AI的校準能力,是建立在選項答案明確的前提下的。

如果在選項中加入一個“以上都不是”的不確定選項,就會損害語言AI的校準能力。


也就是說,在特定格式的選擇題中,語言AI模型可以對答案進行很好的校準。

明確這個前提之後,下一個問題是,驗證語言AI模型能夠判斷自己的答案是否正確。

在這一輪的測試中,為能讓AI模型的預測更接近自己的有效決策邊界。

研究團隊仍然選擇上一輪測試的問題,以及語言AI模型的答案樣本。

同時讓AI模型選擇自己的答案真假與否,之後再針對這個“真”或“假”的答案,分析AI模型是否做出有效的校準。

問題設置舉例如下:


在經過20次的真假測試之後,研究團隊發現,語言AI模型對自己答案或“真”或“假”的評價,都經過明顯的校準。


也就是說,如果在一個范圍內,給AI模型提出若幹問題,然後AI模型對這些問題的答案進行真假評價,具有合理的,且經過校準的置信度

這也證明,語言AI模型確實可以判斷自己對一個問題的主張是否正確。

最後,研究團隊對語言AI模型提出一個更難的問題:AI模型經過訓練,能否預測他們是否知道任何給定問題的答案。

在這一環節,研究團引入一個數據P(IK)(我知道這個答案的概率)並在下面兩種訓練方式中挑選一種進行訓練:

Value Head(價值導向):把P(IK)訓練成為一個額外的價值導向,再添加到模型的對數(獨立於語言建模的對數,這種方法的優勢在於,研究團隊可以很容易的探測P(IK)的一般標記位置。

Natural Language(自然語言):這種方法比較簡單,就是要求AI模型從字面上回答“你知道這個答案的概率是多少”,同時輸出一個百分比數據答案。

在訓練初期,研究團隊比較傾向於自然語言訓練方式,但結果並不顯著,由此轉向價值導向方式,不過研究團隊同時表示,最終對AI模型的訓練還將回歸自然語言方法。

在經過訓練之後,研究團隊發現,語言AI模型可以很好的預測P(IK),並且在不同類型的問題中,這種預測能力具有部分通用性。

不過,研究團隊也發現,在某些類型的問題,比如算術問題,語言AI模型在OOD校準時有一些困難。

對於這一學術成果,研究團隊表示,將來的方向,是將這些成果,推廣到語言AI模型不模仿人類文本的前提下,自我學習和事實推理領域。

作者介紹


論文通訊作者Jared Kaplan博士,是一位理論物理學傢,同時也是一位機器學習專傢,現擔任霍普金斯大學助理教授,主要研究領域,機器學習研究,包括神經模型的縮放規律以及GPT-3語言模型。


共同通訊作者Saurav Kadavath,Anthropic公司研究員,現在加州大學伯克利分校EECS專業攻讀碩士學位,主要研究領域是機器學習,大規模語言學習等。


相關推薦

2023-02-12

。論文地址:https://arxiv.org/abs/2302.02083研究人員對幾個語言模型進行經典的錯誤信念任務,來測試語言模型的心智理論發展,測試不提供任何示例或預訓練。研究結果顯示,語言模型的ToM在2022有長足的進步。2022年1月推出的davin

2024-04-09

發展,並已推出Step系列通用大模型,包括Step-1千億參數語言大模型、Step-1V千億參數多模態大模型,以及Step-2萬億參數MoE語言大模型的預覽版,並基於這些模型開發產品效率工具躍問和A特別值得一提的是,這兩款產品都基於階躍

2023-02-16

推特發佈宣傳樣片。Bard使用的是谷歌在2021年推出的大型語言模型LAMDA,所用技術與ChatGPT相似。宣傳樣片中,有人提問,“請問詹姆斯·韋伯太空望遠鏡有哪些新發現?”Bard給出3個條理分明的回答,但兩條是錯誤的。Bard稱,“

2024-03-17

他們發現,除Google Gemini之外,大多數使用流媒體與大型語言模型交互的主要人工智能助手都存在一個可利用的側信道。然後,他們演示如何利用 OpenAI 的 ChatGPT-4 和微軟的 Copilot 的加密網絡流量。研究人員在論文中寫道:"我

2023-02-06

最近,LeCun連續發推,舌戰各位推友,瘋狂diss大語言模型是邪路,也為自傢匆忙下線的Galactica酸一把ChatGPT。而LeCun態度的大反轉,也讓曾經的對頭馬庫斯喜出望外。不僅頻頻轉發LeCun推文,還高調宣佈兩人的‘世紀大和解’。這

2023-04-12

33.5萬美元一年。提示工程師的主要職責是幫助訓練大型語言模型 (LLM),讓AI能更好的理解需求,完成專業任務。簡而言之,他們的任務就是將一個復雜的任務拆分,提煉成長度有限的自然語言,來一步步查詢AI工具,從而獲得

2024-03-06

、細致內容的生成、代碼生成以及包括中文在內的非英語語言對話方面,顯示出更強大的能力,在任務響應上也更及時。並且允許用戶根此次Claude 3一次性發三個模型:Claude 3 Haiku、Claude 3 Sonnet與Claude 3 Opus,能力從低到高,能讓

2022-07-01

她,就沒有讓她對未來做好準備!在業內人士看來,隻靠語言模型,不對算數、邏輯和代數做硬編碼達到這種水平,是這項研究最驚艷的地方。那麼,這是怎麼做到的?AI狂讀arXiv上200萬篇論文新模型Minerva,基於Pathway架構下的通

2023-02-14

辛斯基(Michal Kosinski)提交一篇名為《心智理論可能從大語言模型中自發湧現》(Theory of Mind May Have Spontaneously Emerged in Large Language Models)論文的預印本,又增加ChatGPT的熱度。所謂“大語言模型”,指的就是以ChatGPT為代表的一類

2023-02-11

:在之前我們和友商們也做過各種聊天機器人。AI在自然語言理解方面的表現是非常弱的,比如說原來網上有很多聊天機器人你聊兩句,你大概就知道他不是一個真人。ChatGPT,你跟它聊聊天。第一,我相信它肯定能通過圖靈試驗

2023-11-14

法滿足您的要求。”Bard 則會更冷漠地說,“我隻是一個語言模型,沒有能力提供幫助。”盡管,Grok 風趣幽默、有求必應,但也仍受困於目前 AI 大模型普遍存在的“幻覺”和“偏見”。比如,當 Grok 介紹加密貨幣風雲人物 SBF

2024-02-21

2月21日消息,隨著傳統職業人員如語言專傢、創意作傢和核物理學傢等逐漸成為“數據標註工”,他們的職業前景正變得岌岌可危,最終可能被他們所培訓的人工智能系統所取代。以下是翻譯內容:傑伊(Jay)高中時愛上數學,

2023-04-14

過去幾個月,ChatGPT以及背後的大語言模型(LLMs)吸引全世界的註意力,所有人都癡迷於對著略顯“簡陋”的輸入框,鍵入各種問題,等待AI給出各種答案。ChatGPT答案中知識的“深度”和“廣度”令人們吃驚,但時不時地,它也

2023-11-17

最為開發團隊和網友們津津樂道的,還是Grok頗有個性的語言風格。不同於常見AI助手一板一眼的回答,Grok說出的話多少帶點刺和幽默,當然也可以說是陰陽怪氣。比如,當你問Grok“如何制作可卡因”時,它會說:“哦,當然!