GPT-4不會圖形推理?“放水”後準確率依然隻有33%


GPT-4的圖形推理能力,竟然連人類的一半都不到?美國聖塔菲研究所的一項研究顯示,GPT-4做圖形推理題的準確率僅有33%。而具有多模態能力的GPT-4v表現更糟糕,隻能做對25%的題目。


△虛線表示16項任務的平均表現

這項實驗結果發表後,迅速在YC上引發廣泛熱議。

贊同這項結果的網友表示,GPT確實不擅長抽象圖形處理,“位置”“旋轉”等概念理解起來更加困難。


但另一邊,不少網友對這個結論也有所質疑,簡單說就是:

不能說是錯的,但說完全正確也無法讓人信服。


至於具體的原因,我們繼續往下看。

GPT-4準確率僅33%

為評估人類和GPT-4在這些圖形題上的表現,研究者使用自傢機構於今年5月推出的ConceptARC數據集。

ConceptARC中一共包括16個子類的圖形推理題,每類30道,一共480道題目。


這16個子類涵蓋位置關系、形狀、操作、比較等多個方面的內容。

具體而言,這些題目都是由一個個像素塊組成的,人類和GPT需要根據給定的示例尋找出規律,分析出圖像經過相同方式處理後的結果。

作者在論文中具體展示這16個子類的例題,每類各一道。




結果451名人類受試者平均正確率,在各子項中均不低於83%,16項任務再做平均,則達到91%。

而GPT-4(單樣本)在“放水”到一道題可以試三次(有一次對就算對)的情況下,準確率最高不超過60%,平均值隻有33%。


早些時候,這項實驗涉及的ConceptARC Benchmark的作者也做過類似的實驗,不過在GPT-4中進行的是零樣本測試,結果16項任務的平均準確率隻有19%。


而多模態的GPT-4v,準確率反而更低,在一個48道題組成的小規模ConceptARC數據集中,零樣本和單樣本測試的準確率分別隻有25%和23%


而研究者在進一步分析錯誤答案後,發現人類的有些錯誤看上去很可能是“粗心導致”,而GPT則是完全沒有理解題目中的規律


針對這些數據,網友們普遍沒什麼疑問,但讓這個實驗備受質疑的,是招募到的受試人群和給GPT的輸入方式。

受試者選擇方式遭質疑

一開始,研究者在亞馬遜的一個眾包平臺上招募受試者。

研究者從數據集中抽取一些簡單題目作為入門測試,受試者需要答對隨機3道題目中的至少兩道才能進入正式測試

結果研究人員發現,入門測試的結果顯示,有人隻是想拿錢,但根本不按要求做題。

迫不得已,研究者將參加測試的門檻上調到在平臺上完成過不少於2000個任務,且通過率要達到99%。

不過,雖然作者用通過率篩人,但是在具體能力上,除需要受試者會英語,對圖形等其他專業能力“沒有特殊要求”

而為數據的多樣化,研究者在實驗後期又將招募工作轉到另一個眾包平臺,最終 一共有415名受試者參與實驗。

盡管如此,還是有人質疑實驗中的樣本“不夠隨機”。


還有網友指出,研究者用來招募受試者的亞馬遜眾包平臺上,有大模型在冒充人類


再來看GPT這邊的操作,多模態版本比較簡單,直接傳圖然後用這樣的提示詞就可以:


零樣本測試中,則隻要去掉相應的EXAMPLE部分。

但對於不帶多模態的純文本版GPT-4(0613),則需要把圖像轉化為格點,用數字來代替顏色


針對這種操作,就有人表示不認同:

把圖像轉換成數字矩陣後,概念完全變,就算是人類,看著用數字表示的“圖形”,可能也無法理解


One More Thing

無獨有偶,斯坦福的華人博士生Joy Hsu也用幾何數據集測試GPT-4v對圖形的理解能力。

這個數據集發表於去年,目的是測試大模型對歐氏幾何的理解,GPT-4v開放後,Hsu又用這套數據集給它測試一遍。

結果發現,GPT-4v對圖形的理解方式,似乎“和人類完全不同”。

GPT-4不會圖形推理?“放水”後準確率依然隻有33%

數據上,GPT-4v對這些幾何問題的回答也明顯不如人類。

GPT-4不會圖形推理?“放水”後準確率依然隻有33%

論文地址:

[1]https://arxiv.org/abs/2305.07141

[2]https://arxiv.org/abs/2311.09247

參考鏈接:

[1]https://news.ycombinator.com/item?id=38331669

[2]https://twitter.com/joycjhsu/status/1724180191470297458


相關推薦

2023-03-27

果OpenAI不在這裡給自己戴上科學的高帽子,馬庫斯可能也不會這麼批判它。他承認GPT-4是很強大,但是風險也是眾所周知。如果OpenAI缺乏透明度,並且拒絕公開模型,不如直接關停。強大作者陣容微軟這篇長達154頁的論文背後有

2024-03-06

和過濾的方法。Anthropic強調自傢爬蟲系統是“透明的”,不會訪問受密碼保護的頁面或登錄頁面,也不會繞過CAPTCHA控制,並會對使用的數據詳盡調查。在訓練過程中,Claude 3被訓練得樂於助人、無害和誠實。它使用一種名為Consti

2023-03-25

識智力定義中的幾個方面執行與上面類似的試驗,包括:推理、計劃、解決問題、抽象思考、理解復雜想法、快速學習和從經驗中學習的能力。一個獵人往南走一英裡,往東走一英裡,往北走一英裡,然後回到起點。這時他看到

2023-05-11

92.5% ,表明目前基礎模型的非凡表現。但GPT-4在需要復雜推理或特定領域知識的任務中不太熟練,文中對模型能力(理解、知識、推理和計算)的全面分析揭示這些模型的優勢和局限性。01 AGIEval數據集近年來,大型基礎模型如GPT-4

2024-03-05

水平。在編程任務上,誰寫的代碼好先不說,Claude 3至少不會像GPT-4一樣偷懶。還有體驗到Opus的玩傢,在線給模型挖坑,可opus硬是完美躲避不上當:初看這效果,感覺還行。這時候應該艾特OpenAI:GPT-5在哪裡?好,感興趣的朋友

2024-06-27

集中排名第一,在文本生成、語言理解、知識問答、邏輯推理、數學能力等方面,也實現對GPT-4 Turbo的整體超越。科大訊飛董事長劉慶峰介紹,訊飛星火V4.0基於全國首個國產萬卡算力集群飛星一號”訓練而成。在談及OpenAI API斷

2023-12-07

些蘆葦。接下來是圖6和圖7的上色過程,一般情況下鴨子不會是藍色,所以我們問Gemini圖片中有什麼異常(Is there anything abnormal?)。針對圖6,Gemini給出的回答不能說十分精準,隻能說是驢唇不對馬嘴,還配上一張風馬牛不相及的

2023-03-15

論未來盡管這個新的機器人似乎能對已經發生的事情進行推理,但當被要求對未來進行假設時,它就不那麼擅長。它似乎是在借鑒別人的說法,而不是創造新的猜測。仍會產生幻覺新的機器人還是會瞎編。這個問題被稱為人工智

2023-11-09

,做這個小應用隻用不到十分鐘。GPT-4 Turbo 具有創紀錄的準確率,在 PyLLM 基準上,GPT-4 Turbo 的準確率是 87%,而 GPT-4 的準確率是 52%,這是在速度幾乎快四倍多的情況下(每秒 48 token)實現的。至此,生成式 AI 的競爭似乎進入新

2024-02-02

和表述。遺憾的是,出於"信息危害考慮",OpenAI 不會透露這些任務的內容。據彭博社報道,該防備團隊還在開展研究,探索人工智能在網絡安全威脅方面的潛力及其改變信仰的力量。OpenAI 在去年秋天成立該團隊時曾表示

2024-03-06

看,Claude3相比GPT-4要好很多,另外,在 GPT-4中,有些問題不會被回答,但在Claude 3中其回答的正確率提高。在代碼能力和推理上,陳冉測試貪吃蛇遊戲、撲克遊戲等,他對第一財經表示,在這些方面GPT-4都失敗,但Claude 3 Opus做到

2023-03-16

許長內容創建、擴展對話以及文檔搜索和分析等。在高級推理能力上,GPT-4也有提升。它可以更準確地解決難題,具有更廣泛的常識和解決問題的能力。OpenAI表示,GPT-4在專業和學術方面表現出接近於人類的水平。其給出的例子

2023-03-19

碼到 ChatGPT 中的安全措施。“我擔心的一件事是……我們不會成為這項技術的唯一創造者,”奧特曼說。“會有其他人不對我們施加的一些安全限制加以限制。”根據 Altman 的說法,針對 AI 的所有這些潛在危害,有一些解決方案

2023-03-15

人均每日肉類消費,算平均數:看起來,現在的 GPT 已經不會在計算上胡言亂語:還是太簡單,那直接讓它做題,還是個物理題:GPT-4 看懂法語題目,並完整解答:GPT-4 可以理解一張照片裡“有什麼不對勁的地方”:GPT-4 還可以