Yann LeCun：生成模型不適合處理視頻，AI得在抽象空間中進行預測

2024-01-23 來自機器之心公眾號發表於業界精選

聲明:本文來自於微信公眾號機器之心（ID:almosthuman2014），作者:機器之心，授權站長之傢轉載發佈。

AI 理解視頻不能依靠在像素空間中預測。

在互聯網文本數據即將枯竭之際，很多 AI 研究者將目光轉向視頻。但如何讓 AI 理解視頻數據成新的難題。

在2024世界經濟論壇的一次會談中，圖靈獎得主、Meta 首席 AI 科學傢Yann LeCun被問到這個問題。他認為，雖然這個問題還沒有明確的答案，但適合用來處理視頻的模型並不是我們現在大范圍應用的生成模型。而且新的模型應該學會在抽象的表征空間中預測，而不是在像素空間中。

一起參與討論的還有斯坦福大學教授、Coursera 聯合創始人Daphne Koller。她的研究領域主要是人工智能及其在生物醫學科學中的應用。她指出理解因果關系對於構建未來AI系統的重要性。

以下是視頻的文字版本:

主持人:我在世界經濟論壇中參與過一些討論。他們說，我們的數據快用完，真的嗎?網絡上沒有那麼多?

Daphne Koller:是真的。

主持人:但是自動駕駛汽車可能提供更多數據。Yann，你覺得呢?

Yann LeCun:我完全同意 Daphne 的觀點。當然，如果我們致力於 LLM，或者說是自回歸 LLM，我們可以看到它們的發展正趨向極致。毫無疑問，數據資源正變得越來越少，我們基本上已經使用互聯網上所有的公共數據。小型 LLM 使用十萬億 token 進行訓練。以每個詞大約2字節計算，我們用於訓練的數據總量大約是2*10¹³ 字節，用普通人的閱讀速度來說，讀完這些數據需要15萬到20萬年。

想象一下，一個孩子通過眼睛看到多少東西。比如一個四歲的孩子，我們來試著量化一下 Ta 生活中所看到的信息量:每秒視神經傳輸大約20兆字節的數據，在孩子的頭四年的生活中，醒著的時間有16000小時，每小時3600秒，計算可以得出有一千兆字節的信息量。由此可以看出，一個四歲的孩子所看到的信息總量，是最大的大模型所消化的數據量的50倍。

四歲的孩子比我們擁有的最大的 LLM 要聰明得多。Ta 積累的知識量看似更少，但這是因為形式不同。實際上，對於這個孩子來說，Ta 對世界如何運作有著很豐富的認知，而我們今天還不能用 LLM 做到這一點。我們還需要發明一些新的科學方法和技術，來讓未來的 AI 系統像孩子一樣，能夠利用這些看到的信息。這將需要一些科學和技術上的突破，可能會在一年、三年、五年、十年後發生，很難說出準確的時間，因為這是個挑戰。

主持人:確認一下我是否理解你的意思。可獲得的文本數據量會增長，但並不是無限的。而我們能輸入到這些機器中的視覺數據量卻是巨大的，遠遠超過文本數據。

Yann LeCun:我剛才提到的16000小時的視覺內容，相當於 YouTube 上30分鐘的上傳量。這意味著，我們擁有的數據遠遠超過我們能處理的量。問題在於，我們如何讓機器從視頻中學習呢?我們並不知道。

主持人:那麼如果下一步是要處理視頻輸入，需要什麼樣的新架構呢?顯然大型語言模型並不是好的選擇，它的構建方式並不適合處理視頻，那我們現在需要構建什麼?

Yann LeCun:大型語言模型或者一般的 NLP 系統，通常是用這種方法訓練的。拿一段文本，然後故意刪掉一些地方，接著用一個巨大的神經網絡來重建文本，也就是預測那些被刪掉的詞，也就是通過刪掉一些詞來「破壞」文本。像 ChatGPT 和 Lama 這樣的模型都是這樣訓練的。你隻需刪掉最後一個詞就能訓練它們。從技術上講實際上更復雜，不過大體就是這麼個意思，訓練這個系統來重建輸入中缺失的信息。

一個顯而易見的想法就出現，為什麼我們不用圖片來試試呢?拿一張圖片，通過移除一小部分來損壞圖像，然後訓練大型神經網絡來恢復它。但這並不奏效，或者說效果並不好。這方面已經有很多嘗試，但都不太成功。對於視頻也是一樣。

我已經研究視頻預測九年。我一直在嘗試預測，就是向系統展示一段視頻，然後訓練它預測接下來會發生什麼。如果系統能做到這點，它可能就能理解世界的一些基本規律，就像文本系統試圖預測下一個詞一樣。它得能理解句子的含義，但這也做不到。

主持人:你的意思是，你拍一段視頻，你讓視頻裡的人拿著筆把手舉高，然後放開，我就能預測筆會掉下來。但現在機器並不能做到這一點?

Yann LeCun:主要的問題在於，你的筆有一些特殊的擺放方式。當你把它丟下去的時候，它會沿著特定的軌跡下落。我們大多數人無法準確預測軌跡是什麼，但可以預測物體會掉下來。嬰兒大概要花九個月的時間，才能理解沒有支撐的物體會掉下來。這種直覺上的物理知識，嬰兒九個月就能學會，那我們怎樣讓機器也做到這一點呢?

主持人:等一下，我想問個可能有點傻的問題。如果想要這些技術有效果，並持續革新，那就需要它們能夠理解視頻，畢竟數據都在視頻裡。但我們自己都不完全理解視頻，這個矛盾該如何解決呢?

Yann LeCun:其實目前還沒有真正的解決辦法。但目前最有希望的，至少是能用於圖像識別的東西，說出來可能會讓大傢驚訝，並不是生成式的。

所以最有效的模型不是生成圖像的，不是重建，也不是直接預測。它做的是在一個抽象的表征空間中進行預測，就像我無法準確預測你手中的筆會如何掉落一樣。但我可以預測它將會掉落。在某種抽象的層面上，一支筆具體在哪裡以及它的確切擺放方式和其他具體細節，我都可以做出預測。

所以，我們需要在抽象表征空間中預測，而不是具體的像素空間。這就是為什麼像素空間的預測都失敗，因為它太復雜。

Daphne Koller:但是這不僅僅是關於視頻的問題。我認為嬰兒學到的另一件事是因果的概念。他們通過對世界的幹預，並觀察發生的事情來學習的。而我們的 LLM 還沒有做到這一點。它們完全是預測性引擎，隻是在建立關聯，沒有真正理解因果關系。而理解因果關系，對於人類與物質世界的交互極為重要，尤其是在我們嘗試將數字信息與實體世界聯系起來的時候。這是當前模型中缺失的一項很重要的能力。這種能力在實際應用的模型中缺失，在計算機進行常識推理的能力中也是缺失的。當我們嘗試將其應用於其他領域，無論是制造業、生物學還是任何與物理世界互動的領域時，這種能力也都是缺失的。

Yann LeCun:在具身系統中，它實際上是有效的。有些系統是建立在對世界的模型上的。比如，這裡有一個表示在時間點 t 的世界狀態的模型，這裡是我可能會采取的行動。想一想，在時間點 t+1世界的狀態會是什麼?這就是所謂的世界模型。如果你有這種世界模型，你就可以規劃一系列行動來達到一個特定目標。

目前，我們還沒有任何基於這一原理的 AI 系統，除非常簡單的機器人系統。它們的學習速度並不快。因此，一旦我們能夠擴展這種模型的規模，我們就能擁有能理解世界、理解物理世界的系統。它們可以規劃，可以推理，可以理解因果關系。因為它們知道一個行動可能產生什麼效果。它將以目標為導向。我們可以利用這種規劃給它們設定目標，這就是人工智能系統的未來架構。在我看來，一旦我們搞清楚怎麼實現這一切，就不會有人還願意用目前的方式。

原視頻地址:https://www.weforum.org/events/world-economic-forum-annual-meeting-2024/sessions/the-expanding-universe-of-generative-models/

Yann LeCun：生成模型不適合處理視頻，AI得在抽象空間中進行預測

相關推薦

LeCun哈佛演講PPT放出：唱衰自回歸LLM 指明下一代AI方向

Meta的新型AI模型可通過觀看視頻進行學習未來還將加入聲音數據維度

爆火Sora震驚威爾·史密斯 OpenAI技術路線或早在1月被成功預言

Sora成不王炸？Meta人工智能負責人銳評：搞搞視頻就得

谷歌工程師鬧場大烏龍人工智能還沒理解能力哪來的意識覺醒？

解密OpenAI超級視頻模型Sora技術報告虛擬世界湧現

解密OpenAI超級視頻模型Sora技術報告虛擬世界湧現

解密OpenAI超級視頻模型Sora技術報告虛擬世界湧現

解密OpenAI超級視頻模型Sora技術報告虛擬世界湧現

谷歌Gemini生圖功能緊急關閉，口碑一夜塌房 Yann LeCun：我早就知道

“史上最強聊天機器人”狂踩老板小紮卻把LeCun捧成花

小紮、LeCun官宣650億參數SOTA大語言模型LLaMA

圖靈獎得主LeCun：ChatGPT局限巨大自回歸模型壽命不超5年

全球首個類Sora開源復現方案來全面公開所有訓練細節和模型權重