爆火Sora震驚威爾·史密斯 OpenAI技術路線或早在1月被成功預言


威爾·史密斯的這段視頻,把全網都騙!其實Sora的技術路線,早已被人預言。李飛飛去年就用Transformer做出逼真的視頻。但隻有OpenAI大力出奇跡,跑在所有人前面。今天,全體AI社區都被威爾·史密斯發出的這段視頻震驚!


你以為,上面是一年前的AI視頻,下面是如今的AI視頻?


錯!這個所謂AI生成的視頻,其實正是威爾史密斯本人!


威爾·史密斯吃意面這個“圖靈測試”,曾讓Runway、Pika等屢屢翻車。

Runway生成的,是這樣的——




但如今,Sora已經做到逼真似真人、毫無破綻,所以才讓威爾史密斯成功騙過大眾,這太可怕!


Sora的出現,其實在今年1月就已被人預言

1月5日,一位前阿裡的AI專傢表示——

我認為,Transformer框架和LLM路線,將是AI視頻的一個突破口和新范式,它將使AI視頻更加連貫、一致,並且時長更長。目前的Diffusion+Unet路線(如Runway、Pika等),隻是暫時的解決方案。


無獨有偶,斯坦福學者李飛飛在去年年底,就用Transformer就做出逼真的視頻。

而馬毅教授也表示,自己團隊去年在NeurIPS一篇論文中也已經證實,用Transformer可以實現diffusion和denosing。


馬毅團隊提出:假設數據分佈是mixed Gaussians,那Transformer blocks就是在實現diffusion/擴散和denoising/壓縮

能想到Sora技術路線的,肯定不止一個人。可是全世界第一個把Sora做出來的,就是OpenAI。

OpenAI為何總能成功?無他,唯手快爾。

Runway和Pika“點歪”的科技樹,被OpenAI掰正

在此之前,Runway、Pika等AI視頻工具吸引不少聚光燈。


而OpenAI的Sora,不僅效果更加真實,就是把Transformer對前後文的理解和強大的一致性,發揮得淋漓盡致。

這個全新的科技樹,可真是夠震撼的。

不過我們在開頭也可以看到,OpenAI並不是第一個想到這個的人。Transformer框架+LLM路線這種新范式,其實早已有人想到。

就如同AI大V“闌夕”所言,OpenAI用最簡單的話,把最復雜的技術講清楚——

“圖片隻是單幀的視頻。”

科技行業這種從容的公共表達,真是前所未見,令人醍醐灌頂。


“闌夕”指出,“圖片隻是單幀的視頻”的妙處就在於,圖片的創建不會脫離時間軸而存在,Sora實際上是提前給視頻寫腳本的。

甚至無論用戶怎樣Prompt,Sora AI都有自己的構圖思維。

而這,就是困住Runway、Pika等公司最大的問題。

它們的思路,基本都是基於一張圖片來讓AI去想象,完成延伸和填補,從而疊加成視頻。比拼的是誰傢的AI更能理解用戶想要的內容。

因此,這些AI視頻極易發生變形,如何保持一致性成登天般的難題。

Diffusion Model這一局,是徹底輸給Transformer。

ChatGPT故事再次重演,Sora其實站在Google的肩膀上

讓我們深入扒一扒,Sora是站在哪些前人的肩膀上。

簡而言之,最大創新Patch的論文,是Google發表的。

Diffusion Transformer的論文,來自William Peebles和謝賽寧。

此外,Meta等機構、UC伯克利等名校皆有貢獻。

William Peebles和謝賽寧提出的框架

紐約大學計算機系助理教授謝賽寧在分析Sora的技術報告後表示,Sora應該是基於自己和William Peebles提出的框架設計而成。


這篇提出Sora基礎架構的論文,去年被ICCV收錄。


論文地址:https://arxiv.org/abs/2212.09748

隨後,William Peebles加入OpenAI,領導開發Sora的技術團隊。


圖靈三巨頭之一、Meta AI主管LeCun,也轉發謝賽寧的帖子表示認可。

巧合的是,謝賽寧是LeCun的前FAIR同事、現紐約大學同事,William Peebles是LeCun的前伯克利學生、現任OpenAI工程師。AI果然是個圈。


最近,謝賽寧對說自己是Sora作者的說法進行辟謠

CVPR“有眼不識泰山”,拒掉Sora基礎論文

有趣的是,Diffusion Transformer這篇論文曾因“缺乏創新性”被CVPR 2023拒收,後來才被ICCV2003接收。


謝賽寧表示,他們在DIT項目沒有創造太多的新東西,但是兩個方面的問題:簡單性和可擴展性。這可能就是Sora為什麼要基於DIT構建的主要原因。


此前,生成模型的方法包括GAN、自回歸、擴散模型。它們都有各自的優勢和局限性。

而Sora引入的,是一種全新的范式轉變——新的建模技術和靈活性,可以處理各種時間、縱橫比和分辨率。

Sora所做的,是把Diffusion和Transformer架構結合在一起,創建diffusion transformer模型。

這也即是OpenAI的創新之處。

時空Patch是Google的創新

時空Patch,是Sora創新的核心。


它建立在Google DeepMind早期對NaViT和ViT(視覺Transformer)的研究之上。


論文地址:https://arxiv.org/abs/2307.06304

而這項研究,又是基於一篇2021年的論文“An Image is Worth 16x16 Words”。


論文地址:https://arxiv.org/abs/2010.11929

傳統上,對於視覺Transformer,研究者都是使用一系列圖像Patch來訓練用於圖像識別的Transformer模型,而不是用於語言Transformer的單詞。

這些Patch,能使我們能夠擺脫卷積神經網絡進行圖像處理。


然而,視覺Transforemr對圖像訓練數據的限制是固定的,這些數據的大小和縱橫比是固定的,這就限制質量,並且需要大量的圖像預處理。


而通過將視頻視為Patch序列,Sora保持原始的縱橫比和分辨率,類似於NaViT對圖像的處理。

這種保存,對於捕捉視覺數據的真正本質至關重要!

通過這種方法,模型能夠從更準確的世界表示中學習,從而賦予Sora近乎神奇的準確性。


時空Patch的可視化

GooglePatch的論文,發表於2021年。3年後,OpenAI基於這項技術,做出Sora。

這段歷史看起來是不是有點眼熟?簡直就像“Attention Is All You Need”的歷史重演。

2017年6月12日,8位Google研究人員發表Attention is All You Need,大名鼎鼎的Transformer橫空出世。

它的出現,讓NLP變天,成為自然語言領域的主流模型。


論文地址:https://arxiv.org/pdf/1706.03762.pdf

它完全摒棄遞歸結構,依賴註意力機制,挖掘輸入和輸出之間的關系,進而實現並行計算。

在Google看來,Transformer是一種語言理解的新型神經網絡架構。不過它當初被設計出來,是為解決翻譯問題。

而後來,Transformer架構被OpenAI拿來發揚光大,成為ChatGPT這類LLM的核心。

2022年,OpenAI用Google17年發表的Transformer做出ChatGPT。

2024年,OpenAI用Google21年發表的Patch做出Sora。

這也讓人不由感慨:誠如《為什麼偉大不能被計劃》一書中所言,偉大的成就與發明,往往是偏離最初計劃的結果。

前人的無心插柳,給後人的成功做好奠基石,而一條成功的道路是如何踏出的,完全是出於偶然。

Meta微軟UC伯克利斯坦福MIT亦有貢獻

此外,從Sora參考文獻中可以看出,多個機構和名校都對Sora做出貢獻。


比如,用Transformer做擴散模型的去噪骨幹這個方法,早已被斯坦福學者李飛飛證明。

在去年12月,李飛飛攜斯坦福聯袂Google,用Transformer生成逼真視頻。

生成的效果可謂媲美Gen-2比肩Pika,當時許多人激動地感慨——2023年已成AI視頻元年,誰成想2024一開年,OpenAI新的震撼就來!


李飛飛團隊做的,是一個在共享潛空間中訓練圖像和視頻生成的,基於Transformer的擴散模型。

史上首次,AI學者證明:Transformer架構可以將圖像和視頻編碼到一個共享的潛空間中!


論文:https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf

MSRA和北大聯合團隊提出的統一多模態預訓練模型——NÜWA(女媧),也為Sora做出貢獻。

此前的多模態模型要麼隻能處理圖像,要麼隻能處理視頻,而NÜWA則可以為各種視覺合成任務,生成新的圖像和視頻數據。


項目地址:https://github.com/microsoft/NUWA

為在不同場景下同時覆蓋語言、圖像和視頻,團隊設計一個三維變換器編碼器-解碼器框架。

它不僅可以處理作為三維數據的視頻,還可以適應分別作為一維和二維數據的文本和圖像。

在8個下遊任務中,NÜWA都取得新的SOTA,在文本到圖像生成中的表現,更是直接超越DALL-E。


NÜWA模型支持的8種典型視覺生成任務

草蛇灰線,伏脈千裡。踩在前人的肩膀上,通過敏銳的直覺和不眠不休的高強度工作,OpenAI的研究者就這樣點對科技樹。

大力出奇跡的時候到,不拿出一百億美金的大廠就會out

當然,還有一點不得不承認的是:OpenAI能做出Sora,也是因為背後大量的資金支持。

沒有資金,就沒有數據和算力。即使點對科技樹也無法驗證。

可以說,Sora是另一個建立在Transformer上的暴力美學。

現在,芯片+AI是人類有史以來最大的科技浪潮。

不拿出100億美金的大廠,就要掉隊。


國內這邊,格局又會怎樣變換?讓我們拭目以待。


相關推薦

2024-02-20

成。比如最近,號稱“視頻生成界的圖靈測試”的威爾·史密斯吃意大利面的視頻又重出江湖。視頻畫面上半段顯示是一年以前的 AI 視頻,下半段則顯示現在的 AI 視頻。要知道,一年前由AI生成的“威爾·史密斯吃意大利面”視

2024-04-30

釀 Vidu 的時候,大洋彼岸的UC 伯克利的一個研究,卻讓 OpenAI 的 Sora 捷足先登。就在清華小分隊提交論文的兩個月後, UC 伯克利也在預印平臺 ArXiv 上提交他們的論文,一樣說要把 Transformers 揉在擴散模型裡面,隻不過名字起的更

2024-02-18

AI(人工智能)新銳巨頭OpenAI近日推出文生視頻模型Sora,成為繼聊天機器人ChatGPT之後又一大新爆款。在Sora官網上,OpenAI寫道:“我們正在教AI理解和模擬運動中的物理世界,目的是訓練模型幫助人們解決需要現實世界互動的問

2024-02-22

現這就是在玩梗……而這兩天,網上又開始流傳一個威爾史密斯再度吃面的視頻。其實這是他本人整活拍的視頻,但僅僅因為一句 “ AI Video now ” ,很多人以為下面視頻是用 Sora 生成的。出現這種情況,我並不意外,因為AI 發

2024-02-22

現這就是在玩梗……而這兩天,網上又開始流傳一個威爾史密斯再度吃面的視頻。其實這是他本人整活拍的視頻,但僅僅因為一句 “ AI Video now ” ,很多人以為下面視頻是用 Sora 生成的。出現這種情況,我並不意外,因為AI 發

2024-02-23

現這就是在玩梗……而這兩天,網上又開始流傳一個威爾史密斯再度吃面的視頻。其實這是他本人整活拍的視頻,但僅僅因為一句 “ AI Video now ” ,很多人以為下面視頻是用 Sora 生成的。出現這種情況,我並不意外,因為AI 發

2024-02-23

現這就是在玩梗……而這兩天,網上又開始流傳一個威爾史密斯再度吃面的視頻。其實這是他本人整活拍的視頻,但僅僅因為一句 “ AI Video now ” ,很多人以為下面視頻是用 Sora 生成的。出現這種情況,我並不意外,因為AI 發

2024-03-16

報采訪時,被問及Sora訓練數據的這段視頻,已經在全網爆火,引起網友熱議。準備好,WSJ女記者要放大招——“Sora是用什麼數據訓練的?”Murati接下來的表現,十分值得玩味。她眨數次眼睛,目光閃爍,思考幾秒之後略帶遲疑

2024-02-25

軍博士、首席科學傢唐傑任清華大學計算機系教授。OpenAI爆火後,不少人都在尋找“中國的OpenAI”,目光也就自然的落在智譜身上,目前智譜已經成為中國基座大模型領域的獨角獸,也堅持閉源路線不斷探索商業化的可能。但無

2024-03-10

Sutskever的名字。Ilya的X平臺已經停更近三個月。OpenAI近期爆火全球的視頻生成模型Sora,以及今天的調查結果,Ilya都保持沉默。Ilya被看做是OpenAI的靈魂人物。2012年,Ilya在多倫多大學獲得計算機博士學位,師從圖靈獎得主、“深

2024-02-26

Sora,已經成為人工智能界的開年“王炸”。2月16日,OpenAI發佈Sora大模型,僅需通過文本即可自動生成視頻,這也是繼文本模型ChatGPT和圖片模型Dall-E之後,又一極具顛覆性的大模型產品。文本生成視頻並非始於Sora。據不完全統

2024-02-19

節。年輕的開發團隊:應屆博士帶隊,還有00後隨著Sora的爆火,Sora團隊也來到世界舞臺的中央,引發持續的關註。記者查詢OpenAI官網發現,Sora團隊由William Peebles等3人領導,核心成員包括12人。從團隊領導和成員的畢業和入職時

2024-02-18

。顯然,視頻領域的ChatGPT時刻已經到來。AI進化速度令人震驚Sora發佈之後,網絡一片驚嘆,幾乎搶盡Gemini的風頭。AI的進化速度實在令人震驚。要知道,此時距離OpenAI推出ChatGPT,開啟生成式AI時代,僅僅過去14個月時間。直到去

2024-02-21

則“35歲之後,有多少朋友和我感觸是一樣的?”內容的爆火,讓其找到流量密碼,隨後他開始復制相關內容制造焦慮。去年掀起ChatGPT熱潮後,他憑借自己的清華身份和及時跟進科技熱點駛入人工智能知識付費的快車道。目前,