OpenAI Sora核心技術 被曝縫合自DeepMind和謝賽寧論文?


為何Sora會掀起滔天巨浪?Sora的技術,就是機器模擬我們世界的下一步。而且今天有人扒出,Sora創新的核心秘密時空Patches,竟是來自GoogleDeepMind和謝賽寧的論文成果。OpenAI,永遠快別人一步!像ChatGPT成功搶Claude的頭條一樣,這一次,Google核彈級大殺器Gemini1.5才推出沒幾個小時,全世界的目光就被OpenAI的Sora搶去。

100萬token的上下文,僅靠一本語法書就學會一門全新的語言,如此震撼的技術進步,在Sora的榮光下被襯得暗淡無光,著實令人唏噓。

這次,不過也是之前歷史的重演。


為什麼ChatGPT會提前誕生?

《這就是ChatGPT》一書對此進行揭秘: 當時OpenAI管理層聽說,從OpenAI“ 叛逃” 的前員工創立的公司Anthropic Claude有意提前推出Chatbot。

管理層立馬意識到這個產品潛力巨大,於是先下手為強,第一時間改變節奏,出手截胡Anthropic。

11月中旬,在研發GPT-4的OpenAI員工收到指令:所有工作暫停,全力推出一款聊天工具。兩周後,ChatGPT誕生,從此改變人類歷史。

或許,這也就揭示為什麼一傢公司可以永載史冊的原因:領導者能夠發現有市場潛力的新產品,全面攔截所有成功的可能性。

對於Google被截胡一事,網友銳評道:OpenAI用Sora對抗Gemini發佈的方式簡直,Google從沒有受過這樣的打擊。


這不得不讓人懷疑,OpenAI手裡是不是還攥著一堆秘密武器,每當競爭對手發佈新技術,他們就放出來一個爆炸級消息。


要知道,現在才剛剛是2024年2月,想想接下來要發生的事,不免覺得毛骨悚然。

為何Sora掀起滔天巨浪

Sora一出,馬斯克直接大呼:人類徹底完蛋!


馬斯克為什麼這麼說?

OpenAI科學傢Tim Brooks表示,沒通過人類預先設定,Sora就自己通過觀察大量數據,自然而然學會關於3D幾何形狀和一致性的知識。

從本質上說,Sora的技術,就是機器模擬我們世界的一個裡程碑。

外媒Decoder直言:OpenAI令人驚嘆的視頻模型處女作Sora的誕生,感覺就像是GPT-4時刻。


更有人表示,在Sora之中,我切實感受到AGI。


這也就是為什麼Sora會在全世界掀起滔天巨浪的原因。

要解Sora如此強大的能力從何而來,除OpenAI官方給出的技術報告,行業大佬也進行進一步的解讀。

LeCun轉發華人學者謝賽寧的推文,認為Sora基本上是基於謝賽寧等人在去年被ICCV 2023收錄的論文提出的框架設計而成的。


而和謝賽寧一起合著這篇論文的William Peebles之後也加入OpenAI,領導開發Sora的技術團隊。


所以謝賽寧的對於Sora的技術解讀,具備極高的參考價值。


謝賽寧:Sora很厲害,不過好像是用我的論文成果

AI大神謝賽寧,針對Sora的技術報告談自己的看法。


項目地址:https://wpeebles.com/DiT

- 架構:Sora應該是基於他和Bill之前在ICCV 2023上提出的以Transformer為主幹的擴散模型(DIT)

其中,DIT=[VAE編碼器+VIT+DDPM+VAE解碼器]。

根據技術報告,好像沒有其他特別的設計。

-“視頻壓縮網絡”:似乎是一個VAE,但訓練的是原始視頻數據。

在獲得良好的時間一致性方面,tokenize可能起很重要的作用。

VAE是一個ConvNet。所以從技術上講,DIT是一個混合模型。


謝賽寧表示,他們在DIT項目沒有創造太多的新東西,但是兩個方面的問題:簡單性和可擴展性。

這可能就是Sora為什麼要基於DIT構建的主要原因。

首先,簡單意味著靈活

當涉及到輸入數據時,如何使模型更加靈活。

例如,在掩碼自動編碼器(MAE)中,VIT幫助我們隻處理可見的patch,而忽略掉被mask的。

同樣,Sora可以通過在適當大小的網格中安排隨機初始化的patch來控制生成的視頻的大小。

UNet並不直接提供這種靈活性。

猜測:Sora可能還會使用Google的Patch n‘Pack(Navit),以使DIT能夠適應不同的分辨率/持續時間/長寬比。

其次,可擴展性是DIT論文的核心主題

就每Flop的時鐘時間而言,優化的DiT比UNet運行得快得多。

更重要的是,Sora證明DIT縮放法則不僅適用於圖像,現在也適用於視頻——Sora復制DIT中觀察到的視覺縮放行為。

猜測:在Sora的演示中,第一個視頻的質量相當差,謝懷疑它使用的是最基礎的模型。

粗略計算一下,DIT XL/2是B/2模型的5倍GFLOPs,因此最終的16倍計算模型可能是DIT-XL模型的3倍,這意味著Sora可能有約30億個參數。


如果真的是如此,Sora的模型規模可能沒有那麼大。

這可能表明,訓練Sora可能不需要像人們預期的那樣,有非常大的算力要求,所以他預測未來Sora迭代的速度將會很快。


進一步的,謝賽寧解釋Sora提供的關鍵的洞見來自“湧現的模擬能力”這一表現上。

在Sora之前,尚不清楚長期形式的一致性是否會自行湧現,或者是否需要復雜的主題驅動的其他流程,甚至是物理模擬器。

而現在OpenAI已經表明,雖然現在結果還不完美,但這些行為和能力可以通過端到端的訓練來實現。

然而,有兩個要點還不是很明確。

1. 訓練數據:技術報告沒有涉及訓練的數據集,這可能意味著數據是Sora成功的最關鍵因素。

目前已經有很多關於遊戲引擎數據的猜測。 他期待包括電影、紀錄片、電影長鏡頭等。

2. (自回歸)長視頻生成:Sora的一個重大突破是生成超長視頻的能力。

制作一段2秒的視頻和1分鐘的視頻之間的差異是巨大的。

Sora可能是通過允許自回歸采樣的聯合幀預測來實現的,但這裡最主要挑戰是如何解決誤差累積問題,並隨著時間的推移保持質量/一致性。

OpenAI Sora的技術,就是機器模擬我們世界的重要下一步

AI究竟如何將靜態圖形轉換為動態、逼真的視頻?

Sora的一大創新,就是創新性地使用時空patch。

通過底層訓練和patch,Sora能夠理解和開發近乎完美的視覺模擬,比如Minecraft這樣的數字世界。這樣,它就會為未來的AI創造出訓練內容。有數據和系統,AI就能更好地理解世界。


從此,我們可以解鎖VR的新高度,因為它改變我們看待數字環境的方式,將VR的邊界推向新的高度,創建出近乎完美的3D環境。可以在Apple Vision Pro或Meta Quest上按需與空間計算配對。

除謝賽寧的解讀之外,AI專傢Vincent Koc,也對此展開詳細分析。

Sora的獨特方法如何改變視頻生成

以往,生成模型的方法包括GAN、自回歸、擴散模型。它們都有各自的優勢和局限性。

而Sora引入的,是一種全新的范式轉變——新的建模技術和靈活性,可以處理各種時間、縱橫比和分辨率。

Sora所做的,是把Diffusion和Transformer架構結合在一起,創建diffusion transformer模型。

於是,以下功能應運而生——

文字轉視頻:將文字內容變成視頻

圖片轉視頻:賦予靜止圖像動態生命

視頻風格轉換:改變原有視頻的風格

視頻時間延展:可以將視頻向前或向後延長

創造無縫循環視頻:制作出看起來永無止境的循環視頻

生成單幀圖像視頻:將靜態圖像轉化為最高2048 x 2048分辨率的單幀視頻

生成各種格式的視頻:支持從1920 x 1080到1080 x 1920之間各種分辨率格式

模擬虛擬世界:創造出類似於Minecraft等遊戲的虛擬世界

創作短視頻:制作最長達一分鐘的視頻,包含多個短片

這就好比,我們正在廚房裡。

傳統的視頻生成模型,比如Pika和RunwayML,就像照著食譜做飯的廚師一樣。

他們可以做出好吃的菜肴(視頻),但會受到他們所知的食譜(算法)所限。

使用特定的成分(數據格式)和技術(模型架構),它們隻擅長烘焙蛋糕(短片)或烹飪意大利面(特定類型的視頻)。


而與他們不同的是,Sora是一位基礎知識紮實的新型廚師。

它不僅能照著舊食譜做菜,還能自己發明新食譜!

這位住大廚多才多藝,對於食材(數據)和技術(模型架構)的掌握十分靈活,因而能夠做出各種高質量的視頻。

探尋Sora秘密成分的核心:時空patch

時空patch,是Sora創新的核心。


它建立在Google DeepMind早期對NaViT和ViT(視覺Transformer)的研究之上。


論文地址:https://arxiv.org/abs/2307.06304

而這項研究,又是基於一篇2021年的論文“An Image is Worth 16x16 Words”。


論文地址:https://arxiv.org/abs/2010.11929

傳統上,對於視覺Transformer,研究者都是使用一系列圖像patch來訓練用於圖像識別的Transformer模型,而不是用於語言Transformer的單詞。

這些patch,能使我們能夠擺脫卷積神經網絡進行圖像處理。


然而,視覺Transforemr對圖像訓練數據的限制是固定的,這些數據的大小和縱橫比是固定的,這舊限制質量,並且需要大量的圖像預處理。


而通過將視頻視為patch序列,Sora保持原始的縱橫比和分辨率,類似於NaViT對圖像的處理。

這種保存,對於捕捉視覺數據的真正本質至關重要!

通過這種方法,模型能夠從更準確的世界表示中學習,從而賦予Sora近乎神奇的準確性。


時空patch的可視化

這種方法使Sora能夠有效地處理各種視覺數據,而無需調整大小或填充等預處理步驟。

這種靈活性確保每條數據都有助於模型的理解,就像廚師可以使用各種食材,來增強菜肴的風味特征一樣。

時空patch對視頻數據詳細而靈活的處理,為精確的物理模擬和3D一致性等復雜功能奠定基礎。

從此,我們可以創建看起來逼真且符合世界物理規則的視頻,人類也得以一窺AI創建復雜、動態視覺內容的巨大潛力。

多樣化數據在訓練中的作用

訓練數據的質量和多樣性,對於模型的性能至關重要。

傳統的視頻模型,是在限制性更強的數據集、更短的長度和更窄的目標上進行訓練的。

而Sora利用龐大而多樣的數據集,包括不同持續時間、分辨率和縱橫比的視頻和圖像。

它能夠重新創建像Minecraft這樣的數字世界,以及來自Unreal或Unity等系統的模擬世界鏡頭,以捕捉視頻內容的所有角度和各種風格。


這樣,Sora就成一個“通才”模型,就像GPT-4對於文本一樣。

這種廣泛的訓練,使Sora能夠理解復雜的動態,並生成多樣化、高質量的內容。

這種方法模仿在各種文本數據上訓練LLM的方式,將類似的理念應用於視覺內容,實現通才功能。


可變Patches NaVit與傳統的視覺Transformer

NaViT模型通過將來自不同圖像的多個patch打包到單個序列中,得到顯著的訓練效率和性能提升一樣。

同樣地,Sora利用時空patch在視頻生成中實現類似的效率。

這種方法允許模型從龐大的數據集中更有效地學習,提高模型生成高保真視頻的能力,同時降低與現有建模架構相比所需的計算量。

讓物理世界栩栩如生:Sora對3D和連續性的掌握

3D空間和物體的一致性,是Sora演示中的關鍵亮點。

通過對各種視頻數據進行訓練,無需對視頻進行調整或預處理,Sora就學會以令人印象深刻的精度對物理世界進行建模,原因就在於,它能夠以原始形式使用訓練數據。

在Sora生成的視頻中,物體和角色在三維空間中令人信服地移動和交互,即使它們被遮擋或離開框架,也能保持連貫性。

從此,現實不存在,創造力和現實主義的界限被突破。

並且,Sora為模型的可能性設立全新的標準,開源社區很可能會掀起視覺模型的全新革命。

而現在,Sora的旅程才剛剛開始呢,正如OpenAI所說,擴展視頻生成模型是構建物理世界通用模擬器的一條有前途的道路。

前方,就是AGI和世界模型。

不過好在,OpenAI員工透露說,Sora短期內不會面世。


一位OpenAI員工發推表示,現在Sora隻會在有限的范圍內試用,現在放出的demo主要是為獲得社會大眾對它能力的反應

現在,標榜要開發負責任AGI的OpenAI,應該不會冒著風險給大眾拋出一個潘多拉魔盒。

參考資料:

https://twitter.com/sainingxie/status/1758433679238471744

https://towardsdatascience.com/explaining-openai-soras-spacetime-patches-the-key-ingredient-e14e0703ec5


相關推薦

2024-02-20

Google的創新時空Patch,是Sora創新的核心。它建立在Google DeepMind早期對NaViT和ViT(視覺Transformer)的研究之上。論文地址:https://arxiv.org/abs/2307.06304而這項研究,又是基於一篇2021年的論文“An Image is Worth 16x16 Words”。論文地址:https:

2024-02-19

Sora一夜之間爆火全球。但奇怪的是,OpenAI聯合創始人兼首席科學傢伊爾亞·蘇茨克維(IlyaSutskever)卻在保持沉默,沒有轉發任何一條關於Sora的視頻或推文。Sora目前沒有公開測試權限,僅僅向公司內部負責安全風險評估的紅隊成

2024-02-20

作為龍年科技界的“第一把火”,OpenAI最新爆款文生視頻模型Sora的熱度正在以驚人的速度持續發酵。除震驚世界的AI視頻技術,其幕後主創團隊也來到聚光燈下。據OpenAI發佈的Sora技術報告,Sora作者團隊僅有13人,其中3名為華人

2024-02-18

AI(人工智能)新銳巨頭OpenAI近日推出文生視頻模型Sora,成為繼聊天機器人ChatGPT之後又一大新爆款。在Sora官網上,OpenAI寫道:“我們正在教AI理解和模擬運動中的物理世界,目的是訓練模型幫助人們解決需要現實世界互動的問

2024-02-27

。他直接 po 張照片,照片上是當年馬斯克帶著老黃,給 OpenAI 簽名捐贈首臺 DGX-1AI 系統的場景。馬斯克順道還陰陽怪氣一句,看看現在 OpenAI 都成啥樣。。與此同時,國內各路大佬也紛紛出來吃瓜。360 的周鴻禕在第一時間銳評:

2024-02-21

OpenAI也996,實錘(doge)。思維鏈作者、從谷歌跳槽OpenAI的JasonWei剛剛分享自己在OpenAI的一天:[9:00am] 起床[9:30am] 搭乘Waymo前往Mission SF,途中在Tartine買個牛油果吐司[9:45am] 背誦OpenAI范兒。向優化之神致敬。學習《The Bitter Lession》

2024-02-19

2月16日,OpenAI的AI視頻模型Sora炸裂出道,生成的視頻無論是清晰度、連貫性和時間上都令人驚艷,一時間,諸如“現實不存在!”的評論在全網刷屏。Sora是如何實現如此顛覆性的能力的呢?這就不得不提到其背後的兩項核心技

2023-03-31

它們唯一真正關心的事情,還是股東的利潤。Google大腦和DeepMind聯姻而The Information的報道中除有上面那個大瓜,還有另一個瓜。ChatGPT自去年11月ChatGPT爆火之後,Google和OpenAI之間的軍備競賽,就日益劍拔弩張。現在,為對抗ChatGPT

2024-05-01

末的 VideoPoet,視頻生成模型進入到加速階段。2024年2月,OpenAI 旗下視頻生成模型 Sora 正式對外發佈。Sora 一名源於日文“空”(そら sora),取自天空之意,以示其無限的創造潛力。與 Runway、Pika、VideoPoet 等“前輩”相比,Sora

2024-04-09

年3月初,在度過數周的艱難時刻之後,GoogleAI部門Google DeepMind負責人哈薩比斯試圖重振團隊士氣。此時,Google剛發佈Gemini,這款基於哈薩比斯團隊研究的聊天機器人,被視為Google與OpenAI ChatGPT競爭的有力武器。然而,Gemini因錯誤

2024-03-07

評估上一舉超越GPT-4呢?量子位會和大傢一起持續關註。OpenAI還有後手有網友表示,如果大傢持續曬Claude有多棒,一直刺激OpenAI就會發佈GPT-5,大傢加油吧。還有人翻出奧特曼在去年3月15日發佈GPT-4之前曬自拍玩諧音梗(4英文four

2024-02-16

OpenAI新推出的首個視頻生成模型-視頻生成模型索拉(Sora)可以完成一些真正令人印象深刻的影片生成壯舉。不過,至少從今天晚上發表的一篇技術論文來看,這個模型比OpenAI最初想象的還要厲害。這篇題為《作為世界模擬器的

2024-02-26

Sora,已經成為人工智能界的開年“王炸”。2月16日,OpenAI發佈Sora大模型,僅需通過文本即可自動生成視頻,這也是繼文本模型ChatGPT和圖片模型Dall-E之後,又一極具顛覆性的大模型產品。文本生成視頻並非始於Sora。據不完全統

2024-04-30

釀 Vidu 的時候,大洋彼岸的UC 伯克利的一個研究,卻讓 OpenAI 的 Sora 捷足先登。就在清華小分隊提交論文的兩個月後, UC 伯克利也在預印平臺 ArXiv 上提交他們的論文,一樣說要把 Transformers 揉在擴散模型裡面,隻不過名字起的更