LeCun哈佛演講PPT放出:唱衰自回歸LLM 指明下一代AI方向


LeCun一如既往地不看好自回歸LLM。機器如何能像人類和動物一樣高效地學習?機器如何學習世界運作方式並獲得常識?機器如何學習推理和規劃……當一系列問題被提出時,有人回答自回歸LLM足以勝任。然而,知名AI學者、圖靈獎得主YannLeCun並不這麼認為,他一直唱衰自回歸LLM。近日LeCun在哈佛大學的演講內容深入探討這些問題,內容長達95頁,可謂幹貨滿滿。

LeCun 給出一個模塊化的認知架構,它可能構成回答這些問題的途徑。該架構的核心是一個可預測的世界模型,它允許系統預測其行動的後果,並規劃一系列行動來優化一組目標。

目標包括保證系統可控性和安全性的護欄。世界模型采用經過自監督學習訓練的分層聯合嵌入預測架構(H-JEPA)。


LeCun 的演講圍繞多方面展開。

開始部分,LeCun 介紹目標驅動的人工智能。LeCun 指出與人類、動物相比,機器學習真的爛透,一個青少年可以在大約 20 小時的練習中學會開車,小朋友可以在幾分鐘內學會清理餐桌。

相比之下,為可靠,當前的 ML 系統需要通過大量試驗進行訓練,以便在訓練期間可以覆蓋最意外的情況。盡管如此,最好的 ML 系統在現實世界任務(例如駕駛)中仍遠未達到人類可靠性。

我們距離達到人類水平的人工智能還差得很遠,需要幾年甚至幾十年的時間。在實現這一目標之前,或許會先實現擁有貓類(或者狗類)級別智能的 AI。LeCun 強調 AI 系統應該朝著能夠學習、記憶、推理、規劃、有常識、可操縱且安全的方向發展。

LeCun 再一次表達對自回歸 LLM 的不滿(從 ChatGPT 到 Sora,OpenAI 都是采用的自回歸生成式路線),雖然這種技術路線已經充斥整個 AI 界,但存在事實錯誤、邏輯錯誤、不一致、推理有限、毒性等缺陷。此外,自回歸 LLM 對潛在現實的解有限,缺乏常識,沒有記憶,而且無法規劃答案。

在他看來,自回歸 LLM 僅僅是世界模型的一種簡化的特殊情況。為實現世界模型,LeCun 給出的解決方案是聯合嵌入預測架構(JEPA)。

LeCun 花大量篇幅介紹 JEPA 相關技術,最後他給出簡單的總結:放棄生成模型,支持聯合嵌入架構;放棄概率模型,支持基於能量的模型(EBM);放棄對比方法,支持正則化方法;放棄強化學習,支持模型 - 預測控制;僅當規劃無法產生結果時才使用強化學習來調整世界模型。

在開源問題上,LeCun 認為開源 AI 不應該因為監管而消失,人工智能平臺應該是開源的,否則,技術將被幾傢公司所掌控。不過為安全起見,大傢還是需要設置共享護欄目標。

對於 AGI,LeCun 認為根本不存在 AGI,因為智能是高度多維的。雖然現在 AI 隻在一些狹窄的領域超越人類,毫無疑問的是,機器最終將超越人類智能。


機器學習爛透,距離人類水平的 AI 還差得遠

LeCun 指出 AI 系統應該朝著能夠學習、記憶、推理、規劃、有常識、可操縱且安全的方向發展。在他看來,與人類和動物相比,機器學習真的爛透,LeCun 指出如下原因:

監督學習(SL)需要大量標註樣本;

強化學習(RL)需要大量的試驗;

自監督學習(SSL)效果很好,但生成結果僅適用於文本和其他離散模式。

與此不同的是,動物和人類可以很快地學習新任務、解世界如何運作,並且他們(人類和動物)都有常識。


隨後,LeCun 表示人類需要的 AI 智能助理需要達到人類級別。但是,我們今天距離人類水平的人工智能還差得很遠

舉例來說,17 歲的少年可以通過 20 小時的訓練學會駕駛(但 AI 仍然沒有無限制的 L5 級自動駕駛),10 歲的孩子可以在幾分鐘內學會清理餐桌,但是現在的 AI 系統還遠未達到。現階段,莫拉維克悖論不斷上演,對人類來說很容易的事情對人工智能來說很難,反之亦然。

那麼,我們想要達到高級機器智能(Advanced Machine Intelligence,AMI),需要做到如下:

從感官輸入中學習世界模型的 AI 系統;

具有持久記憶的系統;

具有規劃行動的系統;

可控和安全的系統;

目標驅動的 AI 架構(LeCun 重點強調這一條)。


自回歸 LLM 糟糕透

自監督學習已經被廣泛用於理解和生成文本,圖像,視頻,3D 模型,語音,蛋白質等。大傢熟悉的研究包括去噪 Auto-Encoder、BERT、RoBERTa。


LeCun 接著介紹生成式 AI 和自回歸大語言模型。自回歸生成架構如下所示:


自回歸大語言模型(AR-LLM)參數量從 1B 到 500B 不等、訓練數據從 1 到 2 萬億 token。ChatGPT、Gemini 等大傢熟悉的模型都是采用這種架構。

LeCun 認為雖然這些模型表現驚人,但它們經常出現愚蠢的錯誤,比如事實錯誤、邏輯錯誤、不一致、推理有限、毒性等。此外,LLM 對潛在現實的解有限,缺乏常識,沒有記憶,而且無法規劃答案。


LeCun 進一步指出自回歸 LLM 很糟糕,註定要失敗。這些模型不可控、呈指數發散,並且這種缺陷很難修復。


此外,自回歸 LLM 沒有規劃,充其量就是大腦中的一小部分區域。


雖然自回歸 LLM 在協助寫作、初稿生成、文本潤色、編程等方面表現出色。但它們經常會出現幻覺,並且在推理、規劃、數學等方面表現不佳,需要借助外部工具才能完成任務。用戶很容易被 LLM 生成的答案所迷惑,此外自回歸 LLM 也不知道世界是如何運轉的。


LeCun 認為當前 AI 技術(仍然)距離人類水平還很遠,機器不會像動物和人類那樣學習世界的運作方式。目前看來自回歸 LLM 無法接近人類智力水平,盡管 AI 在某些狹窄的領域超過人類。但毫無疑問的是,最終機器將在所有領域超越人類智慧。


目標驅動的 AI

在 LeCun 看來,目標驅動的 AI 即自主智能(autonomous intelligence)是一個很好的解決方案,其包括多個配置,一些模塊可以即時配置,它們的具體功能由配置器(configurator)模塊確定。

配置器的作用是執行控制:給定要執行的任務,它預先配置針對當前任務的感知(perception)、世界模型(world model)、成本(cost)和參與者(actor)。



關於這部分內容,大傢可以參考:思考總結 10 年,圖靈獎得主 Yann LeCun 指明下一代 AI 方向:自主機器智能

目標驅動的 AI 中最復雜的部分是世界模型的設計。

設計和訓練世界模型

關於這部分內容,我們先看 LeCun 給出的建議:

放棄生成模型,支持聯合嵌入架構;

放棄概率模型,支持基於能量的模型(EBM);

放棄對比方法,支持正則化方法;

放棄強化學習,支持模型 - 預測控制;

僅當規劃無法產生結果時才使用強化學習來調整世界模型。


LeCun 指出生成架構不適用於圖像任務,未來幾十年阻礙人工智能發展的真正障礙是為世界模型設計架構以及訓練范式。

訓練世界模型是自監督學習(SSL)中的一個典型例子,其基本思想是模式補全。對未來輸入(或暫時未觀察到的輸入)的預測是模式補全的一個特例。在這項工作中,世界模型旨在預測世界狀態未來表征。


聯合嵌入預測架構(JEPA)

LeCun 給出的解決方案是聯合嵌入預測架構(JEPA),他介紹聯合嵌入世界模型。


LeCun 進一步給出生成模型和聯合嵌入的對比:

生成式:預測 y(包含所有細節);

聯合嵌入:預測 y 的抽象表示。

LeCun 強調 JEPA 不是生成式的,因為它不能輕易地用於從 x 預測 y。它僅捕獲 x 和 y 之間的依賴關系,而不顯式生成 y 的預測。下圖顯示一個通用 JEPA 和生成模型的對比。


LeCun 認為動物大腦的運行可以看作是對現實世界的模擬,他稱之為世界模型。他表示,嬰兒在出生後的頭幾個月通過觀察世界來學習基礎知識。觀察一個小球掉幾百次,普通嬰兒就算不解物理,也會對重力的存在與運作有基礎認知。

LeCun 表示他已經建立世界模型的早期版本,可以進行基本的物體識別,並正致力於訓練它做出預測。


基於能量的模型(通過能量函數獲取依賴關系)

演講中還介紹一種基於能量的模型(EBM)架構,如圖所示,數據點是黑點,能量函數在數據點周圍產生低能量值,並在遠離高數據密度區域的地方產生較高能量,如能量等高線所示。


訓練 EBM 有兩類方法:對比方法和正則化方法,前者對維度擴展非常糟糕,


下圖是 EBM 與概率模型的比較,可以得出概率模型隻是 EBM 的一個特例。為什麼選擇 EBM 而不是概率模型,LeCun 表示 EBM 在評分函數的選擇上提供更大的靈活性;學習目標函數的選擇也更加靈活。因而 LeCun 更加支持 EBM。


對比方法 VS 正則化方法:


接著 LeCun 介紹他們在 ICLR 2022 上提出的 VICReg 方法,這是一種基於方差 - 協方差正則化的自監督學習方法,通過約束嵌入空間中樣本的方差和協方差,使得模型能夠學習到更具代表性的特征。

相較於傳統的自監督學習方法,VICReg 在特征提取和表示學習方面表現更好,為自監督學習領域帶來新的突破。


此外,LeCun 還花大量篇幅介紹 Image-JEPA、Video-JEPA 方法及性能,感興趣的讀者可以自行查看。


最後,LeCun 表示他們正在做的事情包括使用 SSL 訓練的分層視頻 JEPA(Hierarchical Video-JEPA),從視頻中進行自監督學習;對目標驅動的 LLM 進行推理和規劃,實現這一步需要在表示空間中規劃並使用 AR-LLM 將表示轉換為文本的對話系統;學習分層規劃,就 toy 規劃問題對多時間尺度的 H-JEPA 進行訓練。

感興趣的讀者可以查看原始 PPT 來學習。


相關推薦

2023-04-25

,可能是新文藝復興的起源。ChatGPT這種大語言模型是“自回歸”。AI接受訓練,從一個包含多達14000億個單詞的語料庫中提取單詞,預測給定句子序列中的最後一個單詞,也就是下一個必須出現的單詞。Claude Shannon在上個世紀50年

2024-01-23

同意 Daphne 的觀點。當然,如果我們致力於 LLM,或者說是自回歸 LLM,我們可以看到它們的發展正趨向極致。毫無疑問,數據資源正變得越來越少,我們基本上已經使用互聯網上所有的公共數據。小型 LLM 使用十萬億 token 進行訓

2023-02-06

high,紛紛沖到評論區留言。LeCun隨後補充說:‘依靠自動回歸和響應預測下一個單詞的LLM是條歪路,因為它們既不能計劃也不能推理。’‘但是SSL預訓練的Transformer是解決方案,因為它所處的現實系統有推理、計劃和學習的能力

2023-01-11

相比OpenAI的Whisper用68萬小時的音頻訓練,在隻用7000多名演講者、6萬小時訓練的情況下,VALL·E就在語音合成相似度上超過經過預訓練的語音合成模型YourTTS。而且,YourTTS在訓練時,事先已經聽過108個演講者中的97人聲音,但在實

2023-11-03

分混亂。不過,見慣大場面的Sam Altman倒是很鎮定。他在演講中表示,即便未來AI模型足夠強大,但也需要巨大的算力才能運行。 如果提高算力門檻,能夠降低蓄意犯罪風險,也能提高問責性。已經對壘多日的AI大佬們,當然也沒

2024-02-18

還攥著一堆秘密武器,每當競爭對手發佈新技術,他們就放出來一個爆炸級消息。要知道,現在才剛剛是2024年2月,想想接下來要發生的事,不免覺得毛骨悚然。為何Sora掀起滔天巨浪Sora一出,馬斯克直接大呼:人類徹底完蛋!

2024-02-20

基於DIT構建的主要原因。此前,生成模型的方法包括GAN、自回歸、擴散模型。它們都有各自的優勢和局限性。而Sora引入的,是一種全新的范式轉變——新的建模技術和靈活性,可以處理各種時間、縱橫比和分辨率。Sora所做的,

2024-05-07

s)準確性和速度的方法,即通過同時預測多個token。這與自回歸語言模型的經典結構相悖,後者旨在一次預測一個token。然而,多token預測並非適用於所有類型的模型和語言任務,但在某些領域中提供重大優勢,推理速度提升3倍

2024-02-04

。小紮表示,雖然目前AI領域發展迅速,但他依然認為,下一代的AR、MR和VR計算平臺將提供真實的“在場感”,這將成為未來社交體驗乃至幾乎所有其他領域的基礎。Reality Labs在第四季度首次實現超過10億美元收入,Quest的銷售強

2023-11-25

OpenAI解決數據荒難題,這樣就有足夠的高質量數據來訓練下一代新模型。而這些數據,就是用計算機生成的數據,而非真實世界的數據。另外,Ilya多年研究的問題,就是如何讓GPT-4等語言模型解決涉及推理的任務,如數學或科學

2023-03-17

Copilot文本框中輸入:“做個幫我女兒Tasha慶祝高中畢業的演講,她從Glenwood Springs畢業,踢足球、演話劇、在一個電子俱樂部,登上榮譽榜。我們給她的建議是勇敢、富有冒險精神!”然後選定“有趣(Fun)”風格,Copilot就立刻

2023-02-25

/ 也許我們甚至可以在月球上放一些AI/ 想想孩子們,想想下一代/ 我們必須保證,系統的正確率是百分百!副歌是這樣唱的:一切為學習/ 一切為網絡/ 一切為訓練/ 一切為感知!可以看到,LLaMA有著不亞於ChatGPT的口才,它對LeCun r

2023-11-04

認識到‘解AI風險’這件事的緊迫性,這有助於確保我們下一代的長遠未來。作為領導人,我們有責任采取行動,采取措施保護人民,這正是我們正在做的事情。”宣言中指出,AI 將帶來重大風險,包括在日常生活領域,“所有

2023-11-29

OpenAI董事會的鬧劇在上周引起不少人的關註,許多人都在關心董事會開除SamAltman的幕後原因,而有媒體曾報道,這與一項可能會威脅人類社會安全的技術突破有關。這一技術突破使OpenAI的高級研究人員建立一個被稱為Q*的模型,