揭秘Sora:開發團隊成立不到1年 核心技術曾因“缺乏創新”遭拒絕


2月16日,OpenAI的AI視頻模型Sora炸裂出道,生成的視頻無論是清晰度、連貫性和時間上都令人驚艷,一時間,諸如“現實不存在!”的評論在全網刷屏。Sora是如何實現如此顛覆性的能力的呢?這就不得不提到其背後的兩項核心技術突破——SpacetimePatch(時空Patch)技術和DiffusionTransformer(DiT,或擴散型Transformer)架構。

《每日經濟新聞》記者查詢這兩項技術的原作論文發現,時空Patch的技術論文實際上是由GoogleDeepMind的科學傢們於2023年7月發表的。DiT架構技術論文的一作則是Sora團隊領導者之一William Peebles,但戲劇性的是,這篇論文曾在2023年的計算機視覺會議上因“缺少創新性”而遭到拒絕,僅僅1年之後,就成為Sora的核心理論之一。

如今,Sora團隊毫無疑問已經成為世界上最受關註的技術團隊。記者查詢OpenAI官網發現,Sora團隊由Peebles等3人領導,核心成員包括12人,其中有多位華人。值得註意的是,這支團隊十分年輕,成立時間還尚未超過1年。

核心突破一:時空Patch,站在Google肩膀上

此前,OpenAI在X平臺上展示Sora將靜態圖像轉換為動態視頻的幾個案例,其逼真程度令人驚嘆。Sora是如何做到這一點的呢?這就不得不提到該AI視頻模型背後的兩項核心技術——DiT架構和Spacetime Patch(時空Patch)。

據外媒報道,Spacetime Patch是Sora創新的核心之一,該項技術是建立在GoogleDeepMind對NaViT(原生分辨率視覺Transformer)和ViT(視覺Transformer)的早期研究基礎上。

Patch可以理解為Sora的基本單元,就像GPT-4 的基本單元是Token。Token是文字的片段,Patch則是視頻的片段。GPT-4被訓練以處理一串Token,並預測出下一個Token。Sora遵循相同的邏輯,可以處理一系列的Patch,並預測出序列中的下一個Patch。

Sora之所以能實現突破,在於其通過Spacetime Patch將視頻視為補丁序列,Sora保持原始的寬高比和分辨率,類似於NaViT對圖像的處理。這對於捕捉視覺數據的真正本質至關重要,使模型能夠從更準確的表達中學習,從而賦予Sora近乎完美的準確性。由此,Sora能夠有效地處理各種視覺數據,而無需調整大小或填充等預處理步驟。

記者註意到,OpenAI發佈的Sora技術報告中透露Sora的主要理論基礎,其中Patch的技術論文名為Patch n‘ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution。記者查詢預印本網站arxiv後發現,該篇研究論文是由GoogleDeepMind的科學傢們於2023年7月發表的。

圖片來源:arxiv.org
圖片來源:arxiv.org圖片來源:Google Scholar
圖片來源:Google Scholar

核心突破二:擴散型Transformer架構,相關論文曾遭拒絕

除此之外,Sora的另一個重大突破是其所使用的架構,傳統的文本到視頻模型(如Runway、Stable Diffusion)通常是擴散模型(Diffusion Model),文本模型例如GPT-4則是Transformer模型,而Sora則采用DiT架構,融合前述兩者的特性。

據報道,傳統的擴散模型的訓練過程是通過多個步驟逐漸向圖片增加噪點,直到圖片變成完全無結構的噪點圖片,然後在生成圖片時,逐步減少噪點,直到還原出一張清晰的圖片。Sora采用的架構是通過Transformer的編碼器-解碼器架構處理包含噪點的輸入圖像,並在每一步預測出更清晰的圖像。DiT架構結合時空Patch,讓Sora能夠在更多的數據上進行訓練,輸出質量也得到大幅提高。

OpenAI發佈的Sora技術報告透露,Sora采用的DiT架構是基於一篇名為Scalable diffusion models with transformers的學術論文。記者查詢預印本網站arxiv後發現,該篇原作論文是2022年12月由伯克利大學研究人員William (Bill) Peebles和紐約大學的一位研究人員Saining Xie共同發表。William (Bill) Peebles之後加入OpenAI,領導Sora技術團隊。

圖片來源:arxiv.org
圖片來源:arxiv.org

然而,戲劇化的是,Meta的AI科學傢Yann LeCun在X平臺上透露,“這篇論文曾在2023年的計算機視覺會議(CVR2023)上因‘缺少創新性’而遭到拒絕,但在2023年國際計算機視覺會議(ICCV2023)上被接受發表,並且構成Sora的基礎。”

圖片來源:X平臺
圖片來源:X平臺

作為最懂DiT架構的人之一,在Sora發佈後,Saining Xie在X平臺上發表關於Sora的一些猜想和技術解釋,並表示,“Sora確實令人驚嘆,它將徹底改變視頻生成領域。”

“當Bill和我參與DiT項目時,我們並未專註於創新,而是將重點放在兩個方面:簡潔性和可擴展性。”他寫道。“簡潔性代表著靈活性。關於標準的ViT,人們常忽視的一個亮點是,它讓模型在處理輸入數據時變得更加靈活。例如,在遮蔽自編碼器(MAE)中,ViT幫助我們隻處理可見的區塊,忽略被遮蔽的部分。同樣,Sora可以通過在適當大小的網格中排列隨機初始化的區塊來控制生成視頻的尺寸。”

圖片來源:X平臺
圖片來源:X平臺

不過,他認為,關於Sora仍有兩個關鍵點尚未被提及。一是關於訓練數據的來源和構建,這意味著數據很可能是Sora成功的關鍵因素;二是關於(自回歸的)長視頻生成,Sora的一大突破是能夠生成長視頻,但OpenAI尚未揭示相關的技術細節。

年輕的開發團隊:應屆博士帶隊,還有00後

隨著Sora的爆火,Sora團隊也來到世界舞臺的中央,引發持續的關註。記者查詢OpenAI官網發現,Sora團隊由William Peebles等3人領導,核心成員包括12人。從團隊領導和成員的畢業和入職時間來看,這支團隊成立的時間較短,尚未超過1年。

圖片來源:OpenAI官網
圖片來源:OpenAI官網

從年齡上來看,這支團隊也非常年輕,兩位研究負責人都是在2023年才剛剛博士畢業。William (Bill) Peebles於去年5月畢業,其與Saining Xie合著的擴散Transformer論文成為Sora的核心理論基礎。Tim Brooks於去年1月畢業,是DALL-E 3的作者之一,曾在Google和英偉達就職。


圖片來源:William (Bill) Peebles個人主頁

團隊成員中甚至還有00後。團隊中的Will DePue生於2003年,2022年剛從密西根大學計算機系本科畢業,在今年1月加入Sora項目組。

圖片來源:Will DePue個人主頁
圖片來源:Will DePue個人主頁

此外,團隊還有幾位華人。據媒體報道,Li Jing是 DALL-E 3 的共同一作,2014年本科畢業於北京大學物理系,2019年獲得MIT物理學博士學位,於2022年加入OpenAI。Ricky Wang則是今年1月剛剛從Meta跳槽到OpenAI。其餘華人員工包括Yufei Guo等尚未有太多公開資料介紹。


相關推薦

2024-02-20

tps://arxiv.org/abs/2212.09748隨後,William Peebles加入OpenAI,領導開發Sora的技術團隊。圖靈三巨頭之一、Meta AI主管LeCun,也轉發謝賽寧的帖子表示認可。巧合的是,謝賽寧是LeCun的前FAIR同事、現紐約大學同事,William Peebles是LeCun的前伯克

2023-03-22

網絡市場,從事混合信號和數字信號處理集成電路設計、開發和供貨的廠商。Marvell 在中國的員工總數一度接近1000人,其中設在上海的國際研發中心曾擁有 800 多名研發人員,是繼美國總部、以色列以外的第三大研發中心。該中

2023-02-27

在蘋果公司內部,有一支類似於GoogleX“登月工廠”的前沿技術探索團隊。蘋果以產品保密性著稱,但是即便按照它的標準,這支探索設計團隊也是十分神秘的。該團隊在蘋果內部被稱之為XDG。盡管它主要專註於之前曝光的AppleWat

2024-02-16

今日凌晨,OpenAI推出其首款文生視頻大模型Sora。該模型能根據提示詞生成長達1分鐘的視頻,或者擴展生成的視頻使其更長,同時視覺質量相當驚艷。相比以往的視頻模型,Sora的亮點非常明顯,不僅對文本理解更深刻,可以準確

2024-04-30

。因為它的親媽,是清華系AI 企業瑞萊智慧,背後的研究團隊,幾乎全是這裡面的人。而在成立生數科技之前,團隊就已經把視頻大模型研究得很深入。尤其是在圖像生成這塊很火的擴散( Diffusion )模型,他們算是業內第一批

2023-03-25

北京時間3月25日消息,2018年,埃隆·馬斯克(ElonMusk)離開人工智能研究公司、ChatGPT開發商OpenAI的董事會,當時聲稱的原因是避免與特斯拉產生任何利益沖突。但是最新報道指出,馬斯克離開的真實原因是奪權失敗。OpenAI在2015年以

2024-02-18

為什麼ChatGPT會提前誕生?《這就是ChatGPT》一書對此進行揭秘: 當時OpenAI管理層聽說,從OpenAI“ 叛逃” 的前員工創立的公司Anthropic Claude有意提前推出Chatbot。管理層立馬意識到這個產品潛力巨大,於是先下手為強,第一時間改

2024-03-18

約大學名譽教授、網景通訊公司創始人、微軟Windows7系統開發者、狗狗幣設計師……已有更多圈內圈外的人參與進來。他們或是直接站隊,或是激烈辯駁——OpenAI真的違背創始協議隻想著賺錢嗎?他們究竟是微軟的良好合作夥伴

2024-03-18

星空。自Sora發佈以來,由於效果驚艷但技術細節寥寥,揭秘、復現Sora成為開發社區最熱議話題之一。比如Colossal-AI團隊推出成本直降46%的Sora訓練推理復現流程。短短兩周時間後,該團隊再次發佈最新進展,復現類Sora方案,並將

2024-02-20

剛好不到一年。這也從側面否定之前傳聞中的“Sora早就開發完成,隻是一直沒發”的言論。未公測卻賣課,新型韭菜收割機?而市場上圍繞著Sora的不僅僅有謠言,還有一系列巧立名目的騙局。據知情人士透露,目前市面上一份S

2024-02-18

生視頻模型都是由Stability AI、Runway和Pika等小型初創公司開發的,而近幾個月來,科技巨頭們也紛紛宣佈將帶著自己的模型進入該領域,例如字節跳動的MagicVideo-V2和谷歌的Lumiere。谷歌的Lumiere演示片段。來源:Google Research雖然谷

2024-03-23

去中心化工作中去。在公告中他說,很驕傲從引入第一位開發者至今,Stability已經獲得數億次下載量,並創造跨模態的最佳模型。我堅信Stability AI的使命,並認為公司要掌握在有能力者的手中。Stability AI董事會主席也肯定Emad的

2024-04-28

最新發佈的視頻大模型Vidu。根據官方介紹,該模型采用團隊原創的Diffusion與Transformer融合的架構U-ViT,支持一鍵生成長達16秒、分辨率高達1080P的高清視頻內容。比如,輸入“畫室裡的一艘船駛向鏡頭”這樣一句簡單的指令,Vidu

2024-02-19

23 年 12 月 15 日。OpenAI 在其官網上的 Sora 的文章後面留下團隊成員的名字。在一串致謝名單中,我們看到薩姆·奧爾特曼、格雷格·佈羅克曼、米拉·穆拉蒂等人的名字,但唯獨沒有出現伊爾亞·蘇茨克維。這不禁讓人懷疑,伊爾