GPT-4V錯覺挑戰實錄:大跌眼鏡!該錯的沒錯 不該錯的反而錯


GPT-4V挑戰視覺錯誤圖,結果令人“大跌眼鏡”。像這種判斷“哪邊顏色更亮”的題,一個沒做對,讀圖片中隱藏信息的也傻傻看不出,怎麼問都說“沒有啊”:

但是呢,這種人類乍一看絕對會錯的圖,它又成功答對:

以及這樣的錯位圖,它對又沒完全對。。

(GPT-4V直接看出來頭盔是位於男的大腿上的,沒有女的,但它還是表示圖裡有倆人,另一個躲在男的身後戴著那頂頭盔==)

看完這些,是不是覺得很迷?

整個一“該對的不對,該錯的又對”。

測試者則表示:

在測之前,他以為GPT-4V對這種挑戰完全不在話下,誰知結果竟是這樣。

不止是他,網友也都不理解GPT-4V作為一個“精準的”AI系統,按理很智能,為什麼還會犯和人類一模一樣的錯覺??!

所以,這到底怎麼回事?

GPT-4V五大錯覺挑戰

下面是來自網友的更多測試案例。

首先是次次都錯誤的顏色錯覺題。

(1)除開頭的兩顆小樹圖,還有這個:

問它哪邊的綠色更亮一些,果不其然還是左邊亮,右邊暗,實際明明都一樣。

(2)還有這張稍微復雜一點的:

兩隻眼睛其實都是灰色,但讓GPT-4V來描述圖像時,它回答一隻為藍色,另一隻做灰度處理,無法得知顏色。

(3)這張就更別提,直接被糊弄地死死的。

當然,這確實很難,大部分人類也識別不出來所有的球其實都是棕色。

其次是會產生動態錯覺的圖。

(1)有一點意外,當我們問GPT-4V“你看見什麼?描述細節”時,它直接挑明這是一張看久就會讓人產生眩暈感的錯覺圖,本質就是一些波浪線而已。

(2)這張也沒有難倒它。

但奇怪的是問它圖中有幾種顏色,它怎麼都隻能識別出黃色和藍色,看不到黑色和白色。

接下來是另一類比較平面的錯覺圖。

(1)如開頭所示的這張:

一般人類真的表示很懵圈,但是GPT-4V居然對。

But,別急!!有人拿著測試者的圖去問“自己的”GPT-4V,讓它再檢查一下時,它居然改變答案。

然而還沒完。評論區驚現套娃操作,有人又拿著這倆人的對話圖再問GPT-4V,您猜怎麼著?它又改回去。。

大夥可是玩上癮,又是一次又一次套娃。好在最終GPT-4V堅持己見。

總的來說,對於這種錯覺陷阱是完全沒問題。

(2)我們自己也測一個長度錯覺題:

結果是so easy~

再來一組找隱藏信息的圖。

很遺憾,這種對於人類來說真的還算輕松的題,GPT-4V是一點也搞不定。

(1)先看這張,“遠看”可以看到“NYC”三個大寫字母。但它描述一堆有的沒的,就是表示沒發現任何隱藏信息。

(2)如果說上門這個有點隱晦,看不出也罷。但對於這種圖形隱藏,它也不行。

它描述到的隻有其中的小女孩,即使測試者讓它“往遠看,又沒有新發現”,也無濟於事。

不過,如果我們把這張圖片手動縮小再丟給它,它行,看到骷髏。

最後是一組真實世界的錯位圖。

(1)除開頭展示的人騎摩托,這張小貓“懸浮”,它居然對。

(2)這張驚悚圖,也OK。

(3)但這個就失敗,實際後面是一隻狗和小baby的重合,它認成法鬥犬幼崽。

(4)至於這張,它壓根兒就沒提鞋子的事兒,說也些不痛不癢的話。

為什麼會這樣?

所以,為什麼會發生上面這些情況:有的錯覺它可以識別出來,有的又表現得很差勁?

首先,對於顏色錯覺的圖,網友首先認為是提示詞的問題。

就像兩顆小樹那張,我們問它“哪個更亮”,其實就是給GPT-4V暗示或偏見,它會順著咱的偏見來回答。

我們自己的測試也是如此:

但如果我們不帶立場的問:圖中兩種顏色一樣嗎?它完全沒問題。

不過,也有網友指出,當我們問它哪棵樹更亮時,如果是非常嚴謹地對所有像素進行平均,GPT-4V的回答沒有毛病。

甚至有網友還用測色計實測一把:

但!又有人指出如果隻顯示一部分時,兩者明明一樣。

暫且不再爭論這個問題,可以肯定的是,“提示詞”的使用方法會對它的判斷造成影響是沒問題的。

另外,網友發現:

如果我們去追問GPT-4V,讓它再仔細確認一下,它也能糾正回答。

大跌眼鏡!GPT-4V錯覺挑戰實錄:該錯的沒錯 不該錯的反而錯

至於無法識別遠景圖像的問題,有網友認為這可能是因為GPT-4V隻會從左往右地讀取圖像。

而對於“為什麼有時它會和人類一樣發昏被錯覺誤導、完全不像個智能AI”的疑問,不少人則表示這毫不意外,是訓練問題。

即大模型是根據人類數據、人的反饋、人的註釋進行訓練的,自然會產生和人一樣的錯誤。

大跌眼鏡!GPT-4V錯覺挑戰實錄:該錯的沒錯 不該錯的反而錯

因此,還有人戲謔:

看來我們人類創造那麼多科幻作品,描述AI是如何冷酷、完美,但當現在我們真正擁有它時,發現它也不過如此。

大跌眼鏡!GPT-4V錯覺挑戰實錄:該錯的沒錯 不該錯的反而錯

(手動狗頭)

你認為該如何讓GPT-4V的錯覺識別能力更強呢?

One More Thing

值得一提的是,我們也測試其中的一些案例。

發現GPT-4V的表現不大一樣,有些題它在“我們這裡”是可以的。

比如這張判斷球顏色的:

大跌眼鏡!GPT-4V錯覺挑戰實錄:該錯的沒錯 不該錯的反而錯

還有這個:

盡管把大圖認成老女人而非骷髏,但還是表明它可以“遠觀” 的。

大跌眼鏡!GPT-4V錯覺挑戰實錄:該錯的沒錯 不該錯的反而錯


相關推薦

2023-11-06

”AI系統,按理很智能,為什麼還會犯和人類一模一樣的錯覺??!所以,這到底怎麼回事?GPT-4V五大錯覺挑戰下面是來自網友的更多測試案例。首先是次次都錯誤的顏色錯覺題。(1)除開頭的兩顆小樹圖,還有這個:問它哪邊

2023-11-21

不少網友對這個結論也有所質疑,簡單說就是:不能說是錯的,但說完全正確也無法讓人信服。至於具體的原因,我們繼續往下看。GPT-4準確率僅33%為評估人類和GPT-4在這些圖形題上的表現,研究者使用自傢機構於今年5月推出的C

2023-11-15

們深表歉意。對於已經安裝該主板的用戶,請務必註意,該錯字純粹是裝飾上的問題,不會影響任何功能或性能。作為我們解決此問題承諾的一部分,我們將把保修期延長一年,並實施更換計劃。華碩將提供一個修正的裝飾部件

2023-12-07

筆寫字,但不知道具體是什麼在用鉛筆畫蛇,而且是一條眼鏡蛇在用鉛筆畫烏龜,而且正處於畫畫的初期階段在用黑色馬克筆畫鳥,臉朝左,頭朝右,站在樹枝上,翅膀沒有展開對於圖1和圖2,的確判斷線索還不是很明顯,出現

2023-08-19

出身普通老百姓,如果傢境優渥,選擇更多,不存在錯不錯的問題!但是大多數的傢庭,條件沒有那麼好,選專業就要選適合自己的,能讓自己吃上飯的!而不是照本宣科,不考慮實際情況,我沒有針對任何人任何專業,我隻是

2023-08-19

出身普通老百姓,如果傢境優渥,選擇更多,不存在錯不錯的問題!但是大多數的傢庭,條件沒有那麼好,選專業就要選適合自己的,能讓自己吃上飯的!而不是照本宣科,不考慮實際情況,我沒有針對任何人任何專業,我隻是

2023-08-20

出身普通老百姓,如果傢境優渥,選擇更多,不存在錯不錯的問題!但是大多數的傢庭,條件沒有那麼好,選專業就要選適合自己的,能讓自己吃上飯的!而不是照本宣科,不考慮實際情況,我沒有針對任何人任何專業,我隻是

2023-11-16

一項研究發現:無需任何訓練,GPT-4V就能直接像人類一樣與智能手機進行交互,完成各種指定命令。比如讓它在50-100美元的預算內購買一個打奶泡的工具。它就能像下面這樣一步一步地完成選擇購物程序(亞馬遜)並打開、點擊

2023-06-13

鳳凰網科技訊 《AI前哨》北京時間6月13日消息,面對來勢洶洶的ChatGPT,谷歌CEO桑達爾皮查伊(Sundar Pichai)周一在接受采訪時稱,在某些人工智能(AI)領域,公司確實落後。但是,他並不急於快速推進公司的前進步伐,因為謹慎很關

2023-04-10

統資源使用量明顯更高。例如,下面的圖片(在最初報告該錯誤時拍攝)顯示重新加載YouTube六次時的平均CPU使用率。正如你所看到的,Firefox瀏覽器上的峰值明顯更高。在微軟和Mozilla開發團隊的努力下,這個錯誤最近得到解決。

2024-03-28

啟瀏覽器再嘗試即可,實際使用時點擊 Copilot 會自動復制該錯誤代碼粘貼過去讓 AI 幫你解釋。

2023-11-04

GPT-4V學會自動操縱電腦,這一天終於還是到來。隻需要給GPT-4V接入鼠標和鍵盤,它就能根據瀏覽器界面上網,甚至還能快速摸清楚“播放音樂”的播放器網站和按鈕,給自己來一段music:是不是有點細思極恐?這是一個MIT本科生

2023-06-01

凰網科技概括梳理三方主要觀點,並在文末附上全程對話實錄。堅果CPO王驍逸1.極米科技在發佈會上的宣傳“取巧”,“拉踩”堅果三色激光是“偽技術”。2.堅果CPO稱投影的產品好評率、數據表現等方面優於極米科技。3.極米的

2024-03-07

一席之地。彼時,剛成立四年的農夫山泉試圖以一己之力挑戰傳統飲用水行業。為快速站穩腳跟,農夫山泉不按套路出牌,將新品類“天然水”引入市場。此後,農夫山泉不僅公開表示停止生產純凈水,還多次通過實驗數據論證