爆火Sora震驚威爾·史密斯 OpenAI技術路線或早在1月被成功預言

2024-02-20 來自新智元發表於業界精選

威爾·史密斯的這段視頻，把全網都騙！其實Sora的技術路線，早已被人預言。李飛飛去年就用Transformer做出逼真的視頻。但隻有OpenAI大力出奇跡，跑在所有人前面。今天，全體AI社區都被威爾·史密斯發出的這段視頻震驚！

你以為，上面是一年前的AI視頻，下面是如今的AI視頻？

錯！這個所謂AI生成的視頻，其實正是威爾史密斯本人！

威爾·史密斯吃意面這個“圖靈測試”，曾讓Runway、Pika等屢屢翻車。

Runway生成的，是這樣的——

但如今，Sora已經做到逼真似真人、毫無破綻，所以才讓威爾史密斯成功騙過大眾，這太可怕！

Sora的出現，其實在今年1月就已被人預言

1月5日，一位前阿裡的AI專傢表示——

我認為，Transformer框架和LLM路線，將是AI視頻的一個突破口和新范式，它將使AI視頻更加連貫、一致，並且時長更長。目前的Diffusion+Unet路線（如Runway、Pika等），隻是暫時的解決方案。

無獨有偶，斯坦福學者李飛飛在去年年底，就用Transformer就做出逼真的視頻。

而馬毅教授也表示，自己團隊去年在NeurIPS一篇論文中也已經證實，用Transformer可以實現diffusion和denosing。

馬毅團隊提出：假設數據分佈是mixed Gaussians，那Transformer blocks就是在實現diffusion/擴散和denoising/壓縮

能想到Sora技術路線的，肯定不止一個人。可是全世界第一個把Sora做出來的，就是OpenAI。

OpenAI為何總能成功？無他，唯手快爾。

Runway和Pika“點歪”的科技樹，被OpenAI掰正

在此之前，Runway、Pika等AI視頻工具吸引不少聚光燈。

而OpenAI的Sora，不僅效果更加真實，就是把Transformer對前後文的理解和強大的一致性，發揮得淋漓盡致。

這個全新的科技樹，可真是夠震撼的。

不過我們在開頭也可以看到，OpenAI並不是第一個想到這個的人。Transformer框架+LLM路線這種新范式，其實早已有人想到。

就如同AI大V“闌夕”所言，OpenAI用最簡單的話，把最復雜的技術講清楚——

“圖片隻是單幀的視頻。”

科技行業這種從容的公共表達，真是前所未見，令人醍醐灌頂。

“闌夕”指出，“圖片隻是單幀的視頻”的妙處就在於，圖片的創建不會脫離時間軸而存在，Sora實際上是提前給視頻寫腳本的。

甚至無論用戶怎樣Prompt，Sora AI都有自己的構圖思維。

而這，就是困住Runway、Pika等公司最大的問題。

它們的思路，基本都是基於一張圖片來讓AI去想象，完成延伸和填補，從而疊加成視頻。比拼的是誰傢的AI更能理解用戶想要的內容。

因此，這些AI視頻極易發生變形，如何保持一致性成登天般的難題。

Diffusion Model這一局，是徹底輸給Transformer。

ChatGPT故事再次重演，Sora其實站在Google的肩膀上

讓我們深入扒一扒，Sora是站在哪些前人的肩膀上。

簡而言之，最大創新Patch的論文，是Google發表的。

Diffusion Transformer的論文，來自William Peebles和謝賽寧。

此外，Meta等機構、UC伯克利等名校皆有貢獻。

William Peebles和謝賽寧提出的框架

紐約大學計算機系助理教授謝賽寧在分析Sora的技術報告後表示，Sora應該是基於自己和William Peebles提出的框架設計而成。

這篇提出Sora基礎架構的論文，去年被ICCV收錄。

論文地址：https://arxiv.org/abs/2212.09748

隨後，William Peebles加入OpenAI，領導開發Sora的技術團隊。

圖靈三巨頭之一、Meta AI主管LeCun，也轉發謝賽寧的帖子表示認可。

巧合的是，謝賽寧是LeCun的前FAIR同事、現紐約大學同事，William Peebles是LeCun的前伯克利學生、現任OpenAI工程師。AI果然是個圈。

最近，謝賽寧對說自己是Sora作者的說法進行辟謠

CVPR“有眼不識泰山”，拒掉Sora基礎論文

有趣的是，Diffusion Transformer這篇論文曾因“缺乏創新性”被CVPR 2023拒收，後來才被ICCV2003接收。

謝賽寧表示，他們在DIT項目沒有創造太多的新東西，但是兩個方面的問題：簡單性和可擴展性。這可能就是Sora為什麼要基於DIT構建的主要原因。

此前，生成模型的方法包括GAN、自回歸、擴散模型。它們都有各自的優勢和局限性。

而Sora引入的，是一種全新的范式轉變——新的建模技術和靈活性，可以處理各種時間、縱橫比和分辨率。

Sora所做的，是把Diffusion和Transformer架構結合在一起，創建diffusion transformer模型。

這也即是OpenAI的創新之處。

時空Patch是Google的創新

時空Patch，是Sora創新的核心。

它建立在Google DeepMind早期對NaViT和ViT（視覺Transformer）的研究之上。

論文地址：https://arxiv.org/abs/2307.06304

而這項研究，又是基於一篇2021年的論文“An Image is Worth 16x16 Words”。

論文地址：https://arxiv.org/abs/2010.11929

傳統上，對於視覺Transformer，研究者都是使用一系列圖像Patch來訓練用於圖像識別的Transformer模型，而不是用於語言Transformer的單詞。

這些Patch，能使我們能夠擺脫卷積神經網絡進行圖像處理。

然而，視覺Transforemr對圖像訓練數據的限制是固定的，這些數據的大小和縱橫比是固定的，這就限制質量，並且需要大量的圖像預處理。

而通過將視頻視為Patch序列，Sora保持原始的縱橫比和分辨率，類似於NaViT對圖像的處理。

這種保存，對於捕捉視覺數據的真正本質至關重要！

通過這種方法，模型能夠從更準確的世界表示中學習，從而賦予Sora近乎神奇的準確性。

時空Patch的可視化

GooglePatch的論文，發表於2021年。3年後，OpenAI基於這項技術，做出Sora。

這段歷史看起來是不是有點眼熟？簡直就像“Attention Is All You Need”的歷史重演。

2017年6月12日，8位Google研究人員發表Attention is All You Need，大名鼎鼎的Transformer橫空出世。

它的出現，讓NLP變天，成為自然語言領域的主流模型。

論文地址：https://arxiv.org/pdf/1706.03762.pdf

它完全摒棄遞歸結構，依賴註意力機制，挖掘輸入和輸出之間的關系，進而實現並行計算。

在Google看來，Transformer是一種語言理解的新型神經網絡架構。不過它當初被設計出來，是為解決翻譯問題。

而後來，Transformer架構被OpenAI拿來發揚光大，成為ChatGPT這類LLM的核心。

2022年，OpenAI用Google17年發表的Transformer做出ChatGPT。

2024年，OpenAI用Google21年發表的Patch做出Sora。

這也讓人不由感慨：誠如《為什麼偉大不能被計劃》一書中所言，偉大的成就與發明，往往是偏離最初計劃的結果。

前人的無心插柳，給後人的成功做好奠基石，而一條成功的道路是如何踏出的，完全是出於偶然。

Meta微軟UC伯克利斯坦福MIT亦有貢獻

此外，從Sora參考文獻中可以看出，多個機構和名校都對Sora做出貢獻。

比如，用Transformer做擴散模型的去噪骨幹這個方法，早已被斯坦福學者李飛飛證明。

在去年12月，李飛飛攜斯坦福聯袂Google，用Transformer生成逼真視頻。

生成的效果可謂媲美Gen-2比肩Pika，當時許多人激動地感慨——2023年已成AI視頻元年，誰成想2024一開年，OpenAI新的震撼就來！

李飛飛團隊做的，是一個在共享潛空間中訓練圖像和視頻生成的，基於Transformer的擴散模型。

史上首次，AI學者證明：Transformer架構可以將圖像和視頻編碼到一個共享的潛空間中！

論文：https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf

MSRA和北大聯合團隊提出的統一多模態預訓練模型——NÜWA（女媧），也為Sora做出貢獻。

此前的多模態模型要麼隻能處理圖像，要麼隻能處理視頻，而NÜWA則可以為各種視覺合成任務，生成新的圖像和視頻數據。

項目地址：https://github.com/microsoft/NUWA

為在不同場景下同時覆蓋語言、圖像和視頻，團隊設計一個三維變換器編碼器-解碼器框架。

它不僅可以處理作為三維數據的視頻，還可以適應分別作為一維和二維數據的文本和圖像。

在8個下遊任務中，NÜWA都取得新的SOTA，在文本到圖像生成中的表現，更是直接超越DALL-E。

NÜWA模型支持的8種典型視覺生成任務

草蛇灰線，伏脈千裡。踩在前人的肩膀上，通過敏銳的直覺和不眠不休的高強度工作，OpenAI的研究者就這樣點對科技樹。

大力出奇跡的時候到，不拿出一百億美金的大廠就會out

當然，還有一點不得不承認的是：OpenAI能做出Sora，也是因為背後大量的資金支持。

沒有資金，就沒有數據和算力。即使點對科技樹也無法驗證。

可以說，Sora是另一個建立在Transformer上的暴力美學。

現在，芯片+AI是人類有史以來最大的科技浪潮。

不拿出100億美金的大廠，就要掉隊。

國內這邊，格局又會怎樣變換？讓我們拭目以待。

爆火Sora震驚威爾·史密斯 OpenAI技術路線或早在1月被成功預言

相關推薦

Sora爆火100小時：核心團隊被扒，賣課狂割韭菜，虛假視頻泛濫

剛發佈就被對標Sora，這個國產模型來頭這麼大？

比賽開始！Sora對手直呼奧特曼是魔術師創意行業最先受沖擊？

為獲得流量有人反向操作把真視頻偽裝成“Sora生成”

為獲得流量有人反向操作把真視頻偽裝成“Sora生成”

為獲得流量有人反向操作把真視頻偽裝成“Sora生成”

為獲得流量有人反向操作把真視頻偽裝成“Sora生成”

OpenAI再陷巨大爭議？Sora訓練數據被質疑非法 CTO采訪瘋狂翻車

誰能代表中國AI？

奧爾特曼坐上“鐵王座” 但OpenAI的“OKR”隻完成2/3

Sora“炸場” 中美AI差距有多大？

揭秘Sora：開發團隊成立不到1年核心技術曾因“缺乏創新”遭拒絕

OpenAI的Sora會砸掉誰的飯碗？

全球大火的Sora還沒盈利這些人已經實現日賺200萬