Gary Marcus:文本生成圖像系統理解不世界 離AGI還差得遠


自從DALL-E2問世以來,很多人都認為,能夠繪制逼真圖像的AI是邁向通用人工智能(AGI)的一大步。OpenAI的CEO SamAltman曾在DALL-E2發佈的時候宣稱“AGIisgoingtobewild”,媒體也都在渲染這些系統對於通用智能進展的重大意義。

但真的是如此嗎?知名 AI 學者(給 AI 潑冷水愛好者) Gary Marcus 表示“持保留意見”。

最近,他提出,在評估 AGI 的進展時,關鍵要看像 Dall-E、Imagen、Midjourney 和 Stable Diffusion 這樣的系統是否真正理解世界,從而能夠根據這些知識進行推理並進行決策。

在判斷這些系統之於 AI (包括狹義和廣義的 AI)的意義時,我們可以提出以下三個問題:

  1. 圖像合成系統能否生成高質量的圖像?

  2. 它們能否將語言輸入與它們產生的圖像關聯起來?

  3. 它們解它們所呈現出的圖像背後的世界嗎?

1.AI 不懂語言與圖像的關聯

在第一個問題上,答案是肯定的。區別隻在於,在用 AI 生成圖像這件事兒上,經過訓練的人類藝術傢能做得更好。

在第二個問題上,答案就不一定。在某些語言輸入上,這些系統能表現良好,比如下圖是 DALL-E 2 生成的“騎著馬的宇航員”:


但在其他一些語言輸入上,這些 AI 就表現欠佳、很容易被愚弄。比如前段時間 Marcus 在Twitter上指出,這些系統在面對“騎著宇航員的馬”時,難以生成對應的準確圖像:


盡管深度學習的擁護者對此進行激烈的反擊,比如 AI 研究員 Joscha Bach 認為“Imagen 可能隻是使用錯誤的訓練集”,機器學習教授 Luca Ambrogioni 反駁說,這正表明“Imagen 已經具有一定程度的常識”,所以拒絕生成一些荒謬的東西。


還有一位Google的科學傢 Behnam Neyshabur 提出,如果“以正確的方式提問”,Imagen 就可以畫出“騎著宇航員的馬”:


但是,Marcus 認為,問題的關鍵不在於系統能否生成圖像,聰明的人總能找到辦法讓系統畫出特定的圖像,但這些系統並沒有深刻理解語言與圖像之間的關聯,這才是關鍵。

2.不知道自行車輪子是啥怎麼能稱是AGI?

系統對語言的理解還隻是一方面,Marcus 指出,最重要的是,判斷 DALL-E 等系統對 AGI 的貢獻最終要取決於第三個問題:如果系統所能做的隻是以一種偶然但令人驚嘆的方式將許多句子轉換為圖像,它們可能會徹底改變人類藝術,但仍然不能真正與 AGI 相提並論,也根本代表不 AGI。

讓 Marcus 對這些系統理解世界的能力感到絕望的是最近的一些例子,比如平面設計師 Irina Blok 用 Imagen 生成的“帶有很多孔的咖啡杯”圖像:


正常人看這張圖都會覺得它違反常識,咖啡不可能不從孔裡漏出來。類似的還有:

“帶有方形輪子的自行車”


“佈滿仙人掌刺的廁紙”


說“有”容易說“無”難,誰能知道一個不存在的事物應當是什麼樣?這也是讓 AI 繪制不可能事物的難題所在。

但又或許,系統隻是“想”繪制一個超現實主義的圖像呢,正如 DeepMind 研究教授 Michael Bronstein 所說的,他並不認為那是個糟糕的結果,換做是他,也會這樣畫。


那麼如何最終解決這個問題呢?Gary Marcus 在最近同哲學傢 Dave Chalmers 的一次交談中獲得新的靈感。

為解系統對於部分和整體、以及功能的認識, Gary Marcus 提出一項對系統性能是否正確有更清晰概念的任務,給出文本提示“Sketch a bicycle and label the parts that roll on the ground”(畫出一輛自行車並標記出在地面上滾動的部分),以及“Sketch a ladder and label one of the parts you stand on”(畫出一個梯子並標記出你站立的部分)。

這個測試的特別之處在於,並不直接給出“畫出一輛自行車並標記出輪子”、“畫出一個梯子並標記出踏板”這樣的提示,而是讓 AI 從“地面上滾動的部分”、“站立的部分”這樣的描述中推理出對應的事物,這正是對 AI 理解世界能力的考驗。

但 Marcus 的測試結果表明,Craiyon(以前稱為 DALL-E mini)在這種事情上做得一塌糊塗,它並不能理解自行車的輪子和梯子的踏板是什麼:



那麼這是不是 DALL-E Mini 特有的問題呢?

Gary Marcus 發現並不是,在目前最火的文本生成圖像系統 Stable Diffusion 中也出現同樣的結果。

比如,讓 Stable Diffusion “畫一個人,並把拿東西的部分變成紫色”(Sketch a person and make the parts that hold things purple),結果是:


顯然,Stable Diffusion 並不理解人的雙手是什麼。

而在接下來的九次嘗試中,隻有一次成功完成(在右上角),而且準確性還不高:


下一個測試是,“畫出一輛白色自行車,並將用腳推動的部分變成橙色”,得到圖像結果是:


所以它也不能理解什麼是自行車的腳踏板。

而在畫出“自行車的草圖,並標記在地面上滾動部分”的測試中,其表現得也並沒有很好:


如果文本提示帶有否定語,比如“畫一輛沒有輪子的白色自行車",其結果如下:


這表明系統並不理解否定的邏輯關系。

即便是“畫一輛綠色輪子的白色自行車”這樣簡單的隻關註部分與整體關系提示,而且也沒有出現復雜的語法或功能等,其得到的結果仍存在問題:


因此,Marcus 質問道,一個並不解輪子是什麼、或是它們的用途的系統,能稱得上是人工智能的重大進步麼?

今天,Gary Marcus 還針對這個問題發出一個投票調查,他提出的問題是,“Dall-E 和 Stable Diffusion 等系統,對它們所描繪的世界到底解有多少?”

其中,86.1% 的人認為系統對世界的理解並不多,隻有 13.9% 的人認為這些系統理解世界的程度很高。


對此,Stability.AI 的首席執行官 Emad Mostique 也回應稱,我投的是“並不多”,並承認“它們隻是拼圖上的一小塊。”


來自科學機構 New Science 的 Alexey Guzey 也有與 Marcus 類似的發現,他讓 DALL-E 畫出一輛自行車,但結果隻是將一堆自行車的元素堆在一起。


所以他認為,並沒有任何能真正理解自行車是什麼以及自行車如何工作的模型,生成當前的 ML 模型幾乎可以與人類媲美或取代人類是很荒謬的。

大傢怎麼看?


相關推薦

2024-05-06

試驗;自監督學習(SSL)效果很好,但生成結果僅適用於文本和其他離散模式。與此不同的是,動物和人類可以很快地學習新任務、解世界如何運作,並且他們(人類和動物)都有常識。隨後,LeCun 表示人類需要的 AI 智能助理

2023-03-30

的“叛逆者”、紐約大學心理學和神經科學榮譽教授GaryMarcus發文稱,“我們需要停止擔心機器人接管世界,而是更多地考慮那些壞人可能會利用LLMs做什麼,以及我們可以做什麼來阻止他們。”此前,Marcus 與馬斯克等上千人聯名

2023-05-23

隨著第19屆亞運會的臨近,杭州鐵路建設如火如荼,在建的4條高鐵、3座高鐵站將為亞運會舉辦提供運輸保障。去年,杭州西站投入使用,杭州形成杭州東站、杭州西站、杭州站、杭州南站四大客站為主的大型鐵路樞紐。來自中

2024-02-16

Sora帶來的轟動不亞於一次GPT-5的發佈。作為OpenAI 首推的文本轉視頻模型,Sora能夠根據文本指令或靜態圖像生成長達 1分鐘的視頻,其中包含精細復雜的場景、生動的角色表情以及復雜的鏡頭運動。同時也接受現有視頻擴展或填

2023-11-29

這無疑是件大事,但紐約大學心理學和神經科學教授 Gary Marcus 在5月參議院人工智能監管聽證會上與 Sam Altman一起發言時認為,人們不應該對此技術過於激動。Gary Marcus表示,如今的大語言模型在很大程度上是一種預測機器,它們

2024-02-18

架構(ChatGPT)。通過這種組合,該模型可以像ChatGPT處理文本一樣處理視頻(即圖像幀的時間序列)。最令人印象深刻的特點是它能夠逼真地模擬物理世界(OpenAI 將其描述為 “新興的模擬能力”)。在此之前,還沒有任何文字

2023-04-13

成某種基於AGI(通用人工智能)威脅的協議。這封信雖然文本不長,但是涵蓋非常廣泛的內容,內含的問題很豐富。比如,人類該如何算這筆賬——AGI讓信息渠道充斥宣傳甚至謊言;如果是人類本來就喜歡和滿意的工作,是否應

2023-03-29

人工智能教父Geoffrey Hinton、比爾蓋茨、紐約大學教授Gary Marcus最近也紛紛發出警示:AI消滅人類,真的不是空談。OpenAI研究員預測:AI將知道自己是AI無獨有偶,來自OpenAI治理團隊的Richard Ngo,也對兩年後AI的發展程度進行預測。在

2023-03-16

人工智能研究機構OpenAI3月14日發佈備受期待的文本生成AI模型GPT-4。GPT-4在關鍵方面對其前代GPT-3進行改進,例如提供更符合事實的陳述,並允許開發人員更輕松地規定其風格和行為。它是多模態的模型,可以理解圖像內容。但是

2023-02-16

它回答:有可能會生成存在種族歧視、性別歧視等偏見的文本,因知識有限或不能理解語義而回答錯誤,不能處理復雜的邏輯和數學問題,而且,其擁有的知識隻停留在2021年。新版必應和Edge瀏覽器則可以檢索實時更新的新聞,

2023-04-14

認設置:包括專業性、幽默程度、說話語氣等。· 自動將文本轉換成不同格式:如靜態圖像、短視頻、音頻和虛擬模擬。· 高級數據管理:包括記錄、跟蹤、分析和共享數據,從而簡化工作流程並提高生產力。· 輔助決策:通過

2023-11-13

方式非常吻合,即基於大量數據進行序列預測。這涉及到Marcus Hutter的AIXI理論以及Solomonoff歸納。Solomonoff歸納是一種理論上非常優雅且樣本效率極高的預測系統,雖然它無法在實際計算中應用。但Shane Legg表示,使用Solomonoff歸納作

2022-10-07

集合。語言模型部分是Google自傢的T5-XXL,訓練好後凍結住文本編碼器部分。與負責從文本特征映射到圖像特征的CLIP相比,有一個關鍵不同:語言模型隻負責編碼文本特征,把文本到圖像轉換的工作丟給後面的視頻擴散模型。基

2023-03-27

中復制代碼,而且能夠處理真正的視覺任務,盡管隻接受文本訓練。如下,提示模型通過結合字母Y、O和H的形狀來繪制一個人。在生成過程中,研究人員使用draw-line和draw-circle命令創建O、H和Y的字母,然後GPT-4設法將它們放置在