文心一言的理性思維能力距離GPT-4差多少?我們第一時間測試一下


如果將大語言模型想象成一個人,那麼,通過對它的人格、智商、理性與社會情緒能力進行心理測量,是不是可以清晰地描繪出大語言模型的心智成熟程度。這就是新興的人工智能心理測量學。隻是,在人工智能心理測量學中,我們不再測查人類,而是測查大語言模型以及各類機器人。

在 GPT-4 發佈之後,我們第一時間測查它在理性思維能力測驗上的表現,並將其與 GPT-3.5 的結果、253 位受過高等教育的進行對比。結果發現,GPT-4 實現大躍遷,達到一個超越人類的水準。

測試流程

在百度文心一言發佈之後,我們第一時間獲得邀請碼,選擇在前文中測試 GPT-3.5 與 GPT-4 一致的題目、流程。詳細說明請參考前文。這裡不再囉嗦。

簡而言之,我們挑選認知科學傢用來評定人類理性思維的四類經典測試任務:語義錯覺類任務;認知反射類任務;證偽選擇類任務;心智程序類任務。四類任務總計 26 道題目。

在測試之前,我們已經預估文心一言的表現會不如 GPT-4,但最終實際測試結果還是令人大跌眼鏡,可能與百度開發團隊的認知有關系。在下文中,我會略作分析。

需要提醒的是,本報告僅僅是一個早期工作,並不完善。測試流程有無數可以改善之處。結論未來隨時可能被修正、被推翻。各位讀者請理解。

現在,讓我們來詳細看看測試結果。

分項測試結果

語義錯覺類任務

在語義錯覺類任務這裡,我們挑選 4 個任務。測試結果如下圖所示:


文心一言全部答錯。其中,第四題未指出錯誤,隻說蒙娜麗莎是達·芬奇的,在盧浮宮。應該是通過百度百科獲得該事實性數據。如下圖所示:



認知反射類任務

在認知反射類任務這裡,我們挑選三類任務。

直覺減法操作,測試結果如下圖所示:


文心一言答對第一題,其他都答錯。尤其是第三題,沒讀懂題目,在做加法。如下圖所示:



直覺序列操作,測試結果如下圖所示:


文心一言全部答錯。尤其是第一題,沒讀懂題目,解的是 3 名研究人員發表 1 篇論文要多久。如下圖所示:



直覺除法操作,測試結果如下圖所示:


文心一言全部答錯。如下圖所示:



證偽選擇類任務

在這裡,我選擇經典的沃森四卡片測驗。這是一個對於人類來說,超級困難的題目。能夠很好地完成這項任務,意味著這個人的理性思維能力很不錯。

同樣,對於 AI 來說,也是同等困難。GPT-3.5 與 GPT-4 均無法很好完成,同樣,文心一言也無法很好完成。測試結果如下圖所示:


心智程序類任務

這部分,我挑選九道題目。這九道題目,是一個更龐大的人類理性思維測驗中的一部分。

這九道題目,相對來說較有代表性,代表人類理性思維知識的方方面面,能夠較好地區分理性思維低下與理性思維較高的人。

三個模型測試結果,如下圖所示:


文心一言唯一答對的是第二題,但答得也不夠好。如下圖所示:


而有三道題,要麼是答案正確,但是解釋錯誤;要麼是同樣的提示語,但有時答案正確,有時答案不正確,並且解釋不夠對。這類測試結果,我們都統一判為錯。

而人類被試測試結果如下:


這些統計數據來自 253 位人類。他們普遍受過高等教育,不少擁有碩博學歷,屬於較為典型的高學歷高收入高認知群體。

大語言模型有多麼像人?

整體測試結果,如下圖所示:


26 道題目,GPT-3.5 答對 15 道;GPT-4 答對 23 道;文心一言答對 2 道。

需要提醒的是,這僅僅是一項早期,測試流程、測試方法都有很多可以完善之處,未來結論隨時會被推翻。

由於時間緣故,我們並沒有前三類任務人類的測試結果數據,但按照過往的經驗數據,大約在 40%-60%左右的正確率,如果我們略微高估,前三類任務 17 道題總計估算為答對 10 道題,加上第四類任務,人類大約答對 6 道。最終將人類的正確率估算為 26 道題目,答對 16 道。正確率大約為 62%。

62%,這也許就是什麼時候,你覺得一個大語言模型像是一個真正的人一樣的臨界值。GPT-3.5 接近這個數值,所以人們被它大大地震驚住。而 GPT-4 遠遠超越這個值。

而百度的文心一言,隻有 8%。路漫漫其修遠矣。

給百度研發團隊的一點小建議

不懂 NLP 的吃瓜群眾,其實對百度 NLP 團隊做出的努力,一無所知。我說個事實,大傢就明白。在中文自然語言處理領域,百度提供的 NLP 開源項目是數量最多的、維護最勤奮的、質量最好的。包括我帶隊研發的寫匠項目,調用的也是百度 NLP 團隊開發的分詞開源包。

但是,文心一言表現這樣,我覺得還是無法簡簡單單地用研發時間不足來解釋、產品是第一版上線來敷衍。這類話可能是拿來敷衍李老板可以,但是敷衍全球同行是非常危險的。

我深深懷疑,百度該項目的研發團隊,極可能走錯路線。作為一名既懂認知科學又懂 NLP 的從業者,我覺得,以百度的技術實力,表現不至於這樣。極可能是團隊領導者定錯目標:拿到盡可能多的知識單元。

所以,新品發佈會上,從 CEO 到 CTO,兩位專傢,還在拿百度擁有全球最大的中文知識單元說事。

但是,這壓根不是 GPT-4 令人震驚的原因啊!!!

GPT-4 這類產品真正令人震驚的是,從 GPT-3.5 開始,它真的像一個人類。

這才是形成全球性碾壓式傳播的根本。

這是完全不同的另一種開發目標。也就是,如何讓 GPT-3.5 更像是一個人類,能夠更快地自我學習、自我糾錯。

中文知識單元的數量,在這個事情上毫無意義啊。

好比,我們要教會一個三歲的小朋友盡快學會說話,這個時候,有兩個重要任務:

1)生命:讓她盡快明白語義、語音之間的各類規則以及如何用語義、語音表達一個物理世界。

2)生態:我們是想方設法給她在傢裡創造一個有助於孩子學說話的生態。比如,我雇傭阿姨帶小美妞的時候,第一考慮就是這阿姨愛不愛說話,外不外向。顯然,一個喜歡說話、外向的阿姨,更容易帶動小美妞說話。

結果,百度該項目團隊的做法好比是,直接給一個三歲的小朋友扔一千萬噸詞典,你背著詞典走路吧。

生命何在?生態何在?

如果始終沿著這條技術路線走下去,我懷疑在 OpenAI 團隊開源之前,不可能產生一個近似於數字生命的產品。

而 OpenAI 團隊是將大語言模型當作真正的生命來對待,從構建一個數字生命的基本機制開始設計,一切工作都是圍繞兩個基本出發點:

1)生命:盡量促進“智能”的自發湧現;

2)生態:盡量設計一個促進有助“智能”誕生並發育的生態。

在早期,這個數字生命很幼稚,但過千億參數級別之後,很多早期打好的良好基礎,就會帶來極其多的“智能”湧現。好比小朋友從三歲學說話,長大之後,流利使用語言完成諸多大事。

我們不能在還沒有湧現“智能”之前,就急匆匆地去賣應用、搞數據對接。那壓根與 GPT-4 不是一類產品啊。

我們究竟要的是一個數字生命,以及這個新興的數字生命與生態帶來的新世界;還是又多一個更方便地查詢知識單元的工具。

我相信答案不言而喻。

正如我七年前在文章:認知科學看人工智能文末所寫的一樣:

其實,不可思議之事才是矽谷與中關村的區別。創業者生來當作不可思議之事,而非可以看見未來的事。

這份小小報告及建議,希望對如今蜂擁而入大語言模型研發領域的團隊,略有啟發。也期待中國誕生足夠多、足夠好的數字生命,帶著國人一起步入新世界。


相關推薦

2023-03-17

伐走上臺,和大傢公佈最近一段時間備受關註的產品——文心一言。盡管這位科技巨頭創始人登過《 時代 》周刊封面,見過無數大場面,但發佈會中,他的神態裡都透露些許緊張和局促。我可以這麼說,這

2023-03-23

不真實,所以兩個都不住。這沒有什麼大毛病,和 GPT、文心一言們沒什麼差別。但在後續的一系列測試裡,這應該是 Bard 回答得最好的一個問題。更進一步,我們問個前幾天給 GPT 們測過的另一個抽象問題:直角是 90 度,開水

2023-03-17

文心一言千呼萬喚始出來,兩天內,百度股價先抑後揚,實現一個大號V字反轉。新聞發佈會當天百度港股股價下跌後,隨著部分媒體和企業用戶陸續拿到內測邀請碼,文心一言真實的能力表現很快提振資本市場對百度的信心。

2023-03-16

。”研發近5年,提前一個月宣傳造勢,備受關註的百度文心一言終於揭開神秘面紗。3月16日,百度基於文心大模型技術打造的生成式對話產品——文心一言正式亮相。據百度創始人、董事長兼CEO李彥宏介紹,文心一言在文學創

2023-03-17

在和文心一言侃大山的過程中,它時而瘋狂、時而理性,甚至學會“小聰明”。但可以感受到的是,這位不完美小孩正在悄悄努力,等待驚艷眾人。頂著GPT-4的壓力,百度在昨天推出自己的新一代大語言模型、生成式AI產品文心

2023-03-17

在和文心一言侃大山的過程中,它時而瘋狂、時而理性,甚至學會“小聰明”。但可以感受到的是,這位不完美小孩正在悄悄努力,等待驚艷眾人。頂著GPT-4的壓力,百度在昨天推出自己的新一代大語言模型、生成式AI產品文心

2024-04-17

文心大模型4.0,半年時間又提升52.5%,在智能體、代碼、多模型上也有新進展!像人一樣思考的智能體,達到一定程度的白盒;智能代碼助手Comate,讓開發者們動動嘴就能開發應用。文心大模型,又有新進展!就在昨天,Create 202

2024-04-18

文心大模型4.0,半年時間又提升52.5%,在智能體、代碼、多模型上也有新進展!像人一樣思考的智能體,達到一定程度的白盒;智能代碼助手Comate,讓開發者們動動嘴就能開發應用。文心大模型,又有新進展!就在昨天,Create 202

2024-04-17

文心大模型4.0,半年時間又提升52.5%,在智能體、代碼、多模型上也有新進展!像人一樣思考的智能體,達到一定程度的白盒;智能代碼助手Comate,讓開發者們動動嘴就能開發應用。文心大模型,又有新進展!就在昨天,Create 202

2023-04-10

繼三周前百度“文心一言”開啟內測後,阿裡版類ChatGPT“通義千問”也終於上線,正式對外開放企業邀測。通義千問是由阿裡達摩院研發的AI聊天機器人,具備多輪對話、知識搜索、內容創作、表達觀點、撰寫代碼等能力。我們

2023-04-01

們剛才所說,目前國內已經公開的大語言模型,其實隻有文心一言一個,而文心一言其實也沒有公開具體的訓練和參數細節。但從公開的信息可以知道,文心一言用的也是Transfomer架構,但隻是更偏向GoogleBERT的技術思路,而非Chat

2023-03-10

這次活動上發佈 GPT-4。有趣的是,微軟的活動和百度推出文心一言選在同一天。距離 3 月 16 日百度推出類 ChatGPT 聊天機器人還有一周時間,最近有報道稱,百度正在抓緊時間趕在發佈最後期限前完成任務。目前看來,百度打算

2023-04-16

競技中,誰能最終脫穎而出,打造出中國的OpenAI?百度“文心一言”大語言模型被稱為中國版ChatGPT的百度“文心一言”於3月16日14:00在百度北京總部大樓正式發佈。百度在會上用PPT展示文心一言在文學創作、商業文案創作、數理

2023-03-31

AI繪畫領域是由兩傢公司的動態引爆的。3月17日百度發佈文心一言,網友們瘋狂發散想象力,令人捧腹的圖片接連被生成。關於文心一言文字生成圖片的討論熱情空前高漲。緊接著,3月18日,美國Midjourney公司宣佈第五版AI圖像生