Yann LeCun:生成模型不適合處理視頻,AI得在抽象空間中進行預測


聲明:本文來自於微信公眾號 機器之心(ID:almosthuman2014),作者:機器之心,授權站長之傢轉載發佈。

AI 理解視頻不能依靠在像素空間中預測。

在互聯網文本數據即將枯竭之際,很多 AI 研究者將目光轉向視頻。但如何讓 AI 理解視頻數據成新的難題。

在2024世界經濟論壇的一次會談中,圖靈獎得主、Meta 首席 AI 科學傢Yann LeCun被問到這個問題。他認為,雖然這個問題還沒有明確的答案,但適合用來處理視頻的模型並不是我們現在大范圍應用的生成模型。而且新的模型應該學會在抽象的表征空間中預測,而不是在像素空間中。

一起參與討論的還有斯坦福大學教授、Coursera 聯合創始人Daphne Koller。她的研究領域主要是人工智能及其在生物醫學科學中的應用。她指出理解因果關系對於構建未來AI系統的重要性。

以下是視頻的文字版本:

主持人:我在世界經濟論壇中參與過一些討論。他們說,我們的數據快用完,真的嗎?網絡上沒有那麼多?

Daphne Koller:是真的。

主持人:但是自動駕駛汽車可能提供更多數據。Yann,你覺得呢?

Yann LeCun:我完全同意 Daphne 的觀點。當然,如果我們致力於 LLM,或者說是自回歸 LLM,我們可以看到它們的發展正趨向極致。毫無疑問,數據資源正變得越來越少,我們基本上已經使用互聯網上所有的公共數據。小型 LLM 使用十萬億 token 進行訓練。以每個詞大約2字節計算,我們用於訓練的數據總量大約是2*10¹³ 字節,用普通人的閱讀速度來說,讀完這些數據需要15萬到20萬年。

想象一下,一個孩子通過眼睛看到多少東西。比如一個四歲的孩子,我們來試著量化一下 Ta 生活中所看到的信息量:每秒視神經傳輸大約20兆字節的數據,在孩子的頭四年的生活中,醒著的時間有16000小時,每小時3600秒,計算可以得出有一千兆字節的信息量。由此可以看出,一個四歲的孩子所看到的信息總量,是最大的大模型所消化的數據量的50倍。

四歲的孩子比我們擁有的最大的 LLM 要聰明得多。Ta 積累的知識量看似更少,但這是因為形式不同。實際上,對於這個孩子來說,Ta 對世界如何運作有著很豐富的認知,而我們今天還不能用 LLM 做到這一點。我們還需要發明一些新的科學方法和技術,來讓未來的 AI 系統像孩子一樣,能夠利用這些看到的信息。這將需要一些科學和技術上的突破,可能會在一年、三年、五年、十年後發生,很難說出準確的時間,因為這是個挑戰。

主持人:確認一下我是否理解你的意思。可獲得的文本數據量會增長,但並不是無限的。而我們能輸入到這些機器中的視覺數據量卻是巨大的,遠遠超過文本數據。

Yann LeCun:我剛才提到的16000小時的視覺內容,相當於 YouTube 上30分鐘的上傳量。這意味著,我們擁有的數據遠遠超過我們能處理的量。問題在於,我們如何讓機器從視頻中學習呢?我們並不知道。

主持人:那麼如果下一步是要處理視頻輸入,需要什麼樣的新架構呢?顯然大型語言模型並不是好的選擇,它的構建方式並不適合處理視頻,那我們現在需要構建什麼?

Yann LeCun:大型語言模型或者一般的 NLP 系統,通常是用這種方法訓練的。拿一段文本,然後故意刪掉一些地方,接著用一個巨大的神經網絡來重建文本,也就是預測那些被刪掉的詞,也就是通過刪掉一些詞來「破壞」文本。像 ChatGPT 和 Lama 這樣的模型都是這樣訓練的。你隻需刪掉最後一個詞就能訓練它們。從技術上講實際上更復雜,不過大體就是這麼個意思,訓練這個系統來重建輸入中缺失的信息。

一個顯而易見的想法就出現,為什麼我們不用圖片來試試呢?拿一張圖片,通過移除一小部分來損壞圖像,然後訓練大型神經網絡來恢復它。但這並不奏效,或者說效果並不好。這方面已經有很多嘗試,但都不太成功。對於視頻也是一樣。

我已經研究視頻預測九年。我一直在嘗試預測,就是向系統展示一段視頻,然後訓練它預測接下來會發生什麼。如果系統能做到這點,它可能就能理解世界的一些基本規律,就像文本系統試圖預測下一個詞一樣。它得能理解句子的含義,但這也做不到。

主持人:你的意思是,你拍一段視頻,你讓視頻裡的人拿著筆把手舉高,然後放開,我就能預測筆會掉下來。但現在機器並不能做到這一點?

Yann LeCun:主要的問題在於,你的筆有一些特殊的擺放方式。當你把它丟下去的時候,它會沿著特定的軌跡下落。我們大多數人無法準確預測軌跡是什麼,但可以預測物體會掉下來。嬰兒大概要花九個月的時間,才能理解沒有支撐的物體會掉下來。這種直覺上的物理知識,嬰兒九個月就能學會,那我們怎樣讓機器也做到這一點呢?

主持人:等一下,我想問個可能有點傻的問題。如果想要這些技術有效果,並持續革新,那就需要它們能夠理解視頻,畢竟數據都在視頻裡。但我們自己都不完全理解視頻,這個矛盾該如何解決呢?

Yann LeCun:其實目前還沒有真正的解決辦法。但目前最有希望的,至少是能用於圖像識別的東西,說出來可能會讓大傢驚訝,並不是生成式的

所以最有效的模型不是生成圖像的,不是重建,也不是直接預測。它做的是在一個抽象的表征空間中進行預測,就像我無法準確預測你手中的筆會如何掉落一樣。但我可以預測它將會掉落。在某種抽象的層面上,一支筆具體在哪裡以及它的確切擺放方式和其他具體細節,我都可以做出預測。

所以,我們需要在抽象表征空間中預測,而不是具體的像素空間。這就是為什麼像素空間的預測都失敗,因為它太復雜。

Daphne Koller:但是這不僅僅是關於視頻的問題。我認為嬰兒學到的另一件事是因果的概念。他們通過對世界的幹預,並觀察發生的事情來學習的。而我們的 LLM 還沒有做到這一點。它們完全是預測性引擎,隻是在建立關聯,沒有真正理解因果關系。而理解因果關系,對於人類與物質世界的交互極為重要,尤其是在我們嘗試將數字信息與實體世界聯系起來的時候。這是當前模型中缺失的一項很重要的能力。這種能力在實際應用的模型中缺失,在計算機進行常識推理的能力中也是缺失的。當我們嘗試將其應用於其他領域,無論是制造業、生物學還是任何與物理世界互動的領域時,這種能力也都是缺失的。

Yann LeCun:在具身系統中,它實際上是有效的。有些系統是建立在對世界的模型上的。比如,這裡有一個表示在時間點 t 的世界狀態的模型,這裡是我可能會采取的行動。想一想,在時間點 t+1世界的狀態會是什麼?這就是所謂的世界模型。如果你有這種世界模型,你就可以規劃一系列行動來達到一個特定目標。

目前,我們還沒有任何基於這一原理的 AI 系統,除非常簡單的機器人系統。它們的學習速度並不快。因此,一旦我們能夠擴展這種模型的規模,我們就能擁有能理解世界、理解物理世界的系統。它們可以規劃,可以推理,可以理解因果關系。因為它們知道一個行動可能產生什麼效果。它將以目標為導向。我們可以利用這種規劃給它們設定目標,這就是人工智能系統的未來架構。在我看來,一旦我們搞清楚怎麼實現這一切,就不會有人還願意用目前的方式。

原視頻地址:https://www.weforum.org/events/world-economic-forum-annual-meeting-2024/sessions/the-expanding-universe-of-generative-models/


相關推薦

2024-05-06

歸 LLM 的不滿(從 ChatGPT 到 Sora,OpenAI 都是采用的自回歸生成式路線),雖然這種技術路線已經充斥整個 AI 界,但存在事實錯誤、邏輯錯誤、不一致、推理有限、毒性等缺陷。此外,自回歸 LLM 對潛在現實的解有限,缺乏常識,

2024-02-16

一部分可能發生什麼。需要註意的是,V-JEPA 並不是一個生成模型。Meta 的研究人員說,V-JEPA 在使用視頻遮蔽進行預訓練後,"擅長檢測和理解物體之間高度細致的互動"。這項研究可能會對 Meta 和更廣泛的人工智能生態系

2024-02-20

是一年前的AI視頻,下面是如今的AI視頻?錯!這個所謂AI生成的視頻,其實正是威爾史密斯本人!威爾·史密斯吃意面這個“圖靈測試”,曾讓Runway、Pika等屢屢翻車。Runway生成的,是這樣的——但如今,Sora已經做到逼真似真人

2024-02-23

OpenAI日前推出的視頻生成模型Sora持續引爆相關概念,被視為視頻生成服務的重大突破。然而,來自競爭對手的科學傢卻潑一盆冷水。Sora因其視頻穩定性和清晰度而受到市場青睞,但還有一些人對其給予更高厚望,認為其或許有

2022-08-03

能學習。若有產生反事實信息的能力,人工智能便可自己生成數據,自己想象未來可能遇到的情況,從而更靈活地適應之前未遇見過的新情境。此外,這還能使人工智能擁有好奇心。如果人工智能不確定未來會發生什麼,就會親

2024-02-18

如何將不同類型的視覺數據轉化為統一的格式,以便於對生成模型進行大規模訓練的方法;(2)對Sora的能力和局限性的定性評價。不過遺憾的是,報告不包括模型和實現細節。嗯,OpenAI還是那個“OpenAI”。就連馬斯克都被Sora生

2024-02-18

如何將不同類型的視覺數據轉化為統一的格式,以便於對生成模型進行大規模訓練的方法;(2)對Sora的能力和局限性的定性評價。不過遺憾的是,報告不包括模型和實現細節。嗯,OpenAI還是那個“OpenAI”。就連馬斯克都被Sora生

2024-02-17

如何將不同類型的視覺數據轉化為統一的格式,以便於對生成模型進行大規模訓練的方法;(2)對Sora的能力和局限性的定性評價。不過遺憾的是,報告不包括模型和實現細節。嗯,OpenAI還是那個“OpenAI”。就連馬斯克都被Sora生

2024-02-17

如何將不同類型的視覺數據轉化為統一的格式,以便於對生成模型進行大規模訓練的方法;(2)對Sora的能力和局限性的定性評價。不過遺憾的是,報告不包括模型和實現細節。嗯,OpenAI還是那個“OpenAI”。就連馬斯克都被Sora生

2024-02-24

個月,這個 Gemini 就翻車。多離譜呢,作為一個多模態的生成大模型,Gemini 生成的伊隆・馬斯克是這樣的:臉型神態都很傳神,隻是有個大問題:怎麼成黑人?又有人嘗試讓 Gemini 畫一幅“1940 年代德國領導人”的圖,結果 AI 給

2022-08-08

基於人類反應,告訴它什麼是正確的,什麼是錯誤的。為生成一個句子,“語言建模”和“分類器”機制必須達成一致。數據中會表明好的反應和壞的反應,通過使用這些數據,我們就可以訓練“分類器”來懲罰低質量的、有毒

2023-02-25

型是用來幫助研究者完善自己的工作。大語言模型已經在生成文本、完成對話、總結書面材料上展現出強大的能力,甚至還能解決數學定理、預測蛋白質結構。”“而Meta會致力於這種開源模型的研究,我們的新模型會開源給整

2023-04-25

不同觀點的兩大陣營的人們。一派認為,以ChatGPT為首的生成式AI非常強大,能帶動一大波革命性的風潮,繼續推進沒有問題。另一派認為,咱發展的有點太快。不說禁止,也得停一停。而且道德方面,相匹配的約束也太少。而作

2024-03-18

全球首個開源的類Sora架構視頻生成模型,來!整個訓練流程,包括數據處理、所有訓練細節和模型權重,全部開放。這就是剛剛發佈的Open-Sora1.0。它帶來的實際效果如下,能生成繁華都市夜景中的車水馬龍。還能用航拍視角,