聲明:本文來自於微信公眾號 機器之心(ID:almosthuman2014),作者:機器之心,授權站長之傢轉載發佈。
AI 理解視頻不能依靠在像素空間中預測。
在互聯網文本數據即將枯竭之際,很多 AI 研究者將目光轉向視頻。但如何讓 AI 理解視頻數據成新的難題。
在2024世界經濟論壇的一次會談中,圖靈獎得主、Meta 首席 AI 科學傢Yann LeCun被問到這個問題。他認為,雖然這個問題還沒有明確的答案,但適合用來處理視頻的模型並不是我們現在大范圍應用的生成模型。而且新的模型應該學會在抽象的表征空間中預測,而不是在像素空間中。
一起參與討論的還有斯坦福大學教授、Coursera 聯合創始人Daphne Koller。她的研究領域主要是人工智能及其在生物醫學科學中的應用。她指出理解因果關系對於構建未來AI系統的重要性。
以下是視頻的文字版本:
主持人:我在世界經濟論壇中參與過一些討論。他們說,我們的數據快用完,真的嗎?網絡上沒有那麼多?
Daphne Koller:是真的。
主持人:但是自動駕駛汽車可能提供更多數據。Yann,你覺得呢?
Yann LeCun:我完全同意 Daphne 的觀點。當然,如果我們致力於 LLM,或者說是自回歸 LLM,我們可以看到它們的發展正趨向極致。毫無疑問,數據資源正變得越來越少,我們基本上已經使用互聯網上所有的公共數據。小型 LLM 使用十萬億 token 進行訓練。以每個詞大約2字節計算,我們用於訓練的數據總量大約是2*10¹³ 字節,用普通人的閱讀速度來說,讀完這些數據需要15萬到20萬年。
想象一下,一個孩子通過眼睛看到多少東西。比如一個四歲的孩子,我們來試著量化一下 Ta 生活中所看到的信息量:每秒視神經傳輸大約20兆字節的數據,在孩子的頭四年的生活中,醒著的時間有16000小時,每小時3600秒,計算可以得出有一千兆字節的信息量。由此可以看出,一個四歲的孩子所看到的信息總量,是最大的大模型所消化的數據量的50倍。
四歲的孩子比我們擁有的最大的 LLM 要聰明得多。Ta 積累的知識量看似更少,但這是因為形式不同。實際上,對於這個孩子來說,Ta 對世界如何運作有著很豐富的認知,而我們今天還不能用 LLM 做到這一點。我們還需要發明一些新的科學方法和技術,來讓未來的 AI 系統像孩子一樣,能夠利用這些看到的信息。這將需要一些科學和技術上的突破,可能會在一年、三年、五年、十年後發生,很難說出準確的時間,因為這是個挑戰。
主持人:確認一下我是否理解你的意思。可獲得的文本數據量會增長,但並不是無限的。而我們能輸入到這些機器中的視覺數據量卻是巨大的,遠遠超過文本數據。
Yann LeCun:我剛才提到的16000小時的視覺內容,相當於 YouTube 上30分鐘的上傳量。這意味著,我們擁有的數據遠遠超過我們能處理的量。問題在於,我們如何讓機器從視頻中學習呢?我們並不知道。
主持人:那麼如果下一步是要處理視頻輸入,需要什麼樣的新架構呢?顯然大型語言模型並不是好的選擇,它的構建方式並不適合處理視頻,那我們現在需要構建什麼?
Yann LeCun:大型語言模型或者一般的 NLP 系統,通常是用這種方法訓練的。拿一段文本,然後故意刪掉一些地方,接著用一個巨大的神經網絡來重建文本,也就是預測那些被刪掉的詞,也就是通過刪掉一些詞來「破壞」文本。像 ChatGPT 和 Lama 這樣的模型都是這樣訓練的。你隻需刪掉最後一個詞就能訓練它們。從技術上講實際上更復雜,不過大體就是這麼個意思,訓練這個系統來重建輸入中缺失的信息。
一個顯而易見的想法就出現,為什麼我們不用圖片來試試呢?拿一張圖片,通過移除一小部分來損壞圖像,然後訓練大型神經網絡來恢復它。但這並不奏效,或者說效果並不好。這方面已經有很多嘗試,但都不太成功。對於視頻也是一樣。
我已經研究視頻預測九年。我一直在嘗試預測,就是向系統展示一段視頻,然後訓練它預測接下來會發生什麼。如果系統能做到這點,它可能就能理解世界的一些基本規律,就像文本系統試圖預測下一個詞一樣。它得能理解句子的含義,但這也做不到。
主持人:你的意思是,你拍一段視頻,你讓視頻裡的人拿著筆把手舉高,然後放開,我就能預測筆會掉下來。但現在機器並不能做到這一點?
Yann LeCun:主要的問題在於,你的筆有一些特殊的擺放方式。當你把它丟下去的時候,它會沿著特定的軌跡下落。我們大多數人無法準確預測軌跡是什麼,但可以預測物體會掉下來。嬰兒大概要花九個月的時間,才能理解沒有支撐的物體會掉下來。這種直覺上的物理知識,嬰兒九個月就能學會,那我們怎樣讓機器也做到這一點呢?
主持人:等一下,我想問個可能有點傻的問題。如果想要這些技術有效果,並持續革新,那就需要它們能夠理解視頻,畢竟數據都在視頻裡。但我們自己都不完全理解視頻,這個矛盾該如何解決呢?
Yann LeCun:其實目前還沒有真正的解決辦法。但目前最有希望的,至少是能用於圖像識別的東西,說出來可能會讓大傢驚訝,並不是生成式的。
所以最有效的模型不是生成圖像的,不是重建,也不是直接預測。它做的是在一個抽象的表征空間中進行預測,就像我無法準確預測你手中的筆會如何掉落一樣。但我可以預測它將會掉落。在某種抽象的層面上,一支筆具體在哪裡以及它的確切擺放方式和其他具體細節,我都可以做出預測。
所以,我們需要在抽象表征空間中預測,而不是具體的像素空間。這就是為什麼像素空間的預測都失敗,因為它太復雜。
Daphne Koller:但是這不僅僅是關於視頻的問題。我認為嬰兒學到的另一件事是因果的概念。他們通過對世界的幹預,並觀察發生的事情來學習的。而我們的 LLM 還沒有做到這一點。它們完全是預測性引擎,隻是在建立關聯,沒有真正理解因果關系。而理解因果關系,對於人類與物質世界的交互極為重要,尤其是在我們嘗試將數字信息與實體世界聯系起來的時候。這是當前模型中缺失的一項很重要的能力。這種能力在實際應用的模型中缺失,在計算機進行常識推理的能力中也是缺失的。當我們嘗試將其應用於其他領域,無論是制造業、生物學還是任何與物理世界互動的領域時,這種能力也都是缺失的。
Yann LeCun:在具身系統中,它實際上是有效的。有些系統是建立在對世界的模型上的。比如,這裡有一個表示在時間點 t 的世界狀態的模型,這裡是我可能會采取的行動。想一想,在時間點 t+1世界的狀態會是什麼?這就是所謂的世界模型。如果你有這種世界模型,你就可以規劃一系列行動來達到一個特定目標。
目前,我們還沒有任何基於這一原理的 AI 系統,除非常簡單的機器人系統。它們的學習速度並不快。因此,一旦我們能夠擴展這種模型的規模,我們就能擁有能理解世界、理解物理世界的系統。它們可以規劃,可以推理,可以理解因果關系。因為它們知道一個行動可能產生什麼效果。它將以目標為導向。我們可以利用這種規劃給它們設定目標,這就是人工智能系統的未來架構。在我看來,一旦我們搞清楚怎麼實現這一切,就不會有人還願意用目前的方式。
原視頻地址:https://www.weforum.org/events/world-economic-forum-annual-meeting-2024/sessions/the-expanding-universe-of-generative-models/