Sora成不王炸？Meta人工智能負責人銳評：搞搞視頻就得

2024-02-23 來自財聯社發表於業界精選

OpenAI日前推出的視頻生成模型Sora持續引爆相關概念，被視為視頻生成服務的重大突破。然而，來自競爭對手的科學傢卻潑一盆冷水。Sora因其視頻穩定性和清晰度而受到市場青睞，但還有一些人對其給予更高厚望，認為其或許有機會沖擊人工智能的高峰——世界模擬器，這也是OpenAI喊出的口號。

OpenAI也在其官網文章中寄望，Sora絕不僅僅是個視頻生成器，而是一個現實世界的模擬器。通過學習和模擬數據分佈，生成與真實世界相似的虛擬樣本，從而給現實世界提供預知信息。

但這一前景被Meta的首席AI科學傢Yann LeCun公開反駁，這位以直言不諱聞名的AI大佬直言：搞搞視頻就好，別吹有的沒的。

註定失敗的模擬器

LeCun在X上公開發文稱，通過生成像素來對世界進行模擬是一種資源浪費，且註定會失敗。而該貼也引發極大關註，一眾網友在評論區華山論劍。

簡單來說，LeCun認為Sora模型試圖推斷太多不相關的細節，就像是通過試圖分析足球的材料來判斷足球的運行軌跡。

他指出，生成式模型適用於文本內容，因為文本是離散的，且是由數量有限的符號組成的數據，在這種情況下，處理預測中的不確定性變得十分容易。但如果換到以像素為單位的預測領域，不確定性就會變得非常棘手，且不可能成功。

底下的網友也紛紛發言，有人稱Sora雖然令人印象深刻，但幾乎每個場景都可能出現邏輯問題，比如藝術傢測試視頻中三頭小狼莫名其妙分裂成五頭小狼。這讓模擬現實變得多少不太靠譜。

也有人說，Sora是應夢想而生，人可以做清醒的夢，或者做不太清醒的夢。這種看起來不太清醒的發言則是賭Sora有那麼一些可能實現OpenAI“世界模擬器”的壯言。

與此同時，LeCun所在的Meta上周發佈一個視頻聯合嵌入預測架構V-JEPA，據稱其通過觀看視頻來教導大模型理解和對物理世界建模，算是Sora之外，對世界模擬器的另一種嘗試。

此外，V-JEPA還可以靈活丟棄不可預測的信息，而將訓練和樣本運行效率提升1.5-6倍。不過，V-JEPA顯然顯然沒在市場引發多大動靜，相比Sora要低調很多。

相關推薦