北大發起復現Sora:框架已搭 袁粒、田永鴻領銜 AnimateDiff大神響應


北大團隊發起一項Sora復現計劃——OpenSora。框架、實現細節已出:初始團隊一共13人:帶隊的是北大信息工程學院助理教授、博導袁粒和北大計算機學院教授、博導田永鴻等人。



為什麼發起這項計劃?

因為資源有限,團隊希望集結開源社區的力量,盡可能完成復現。


消息一出,就有人北大校友兼AnimateDiff貢獻者等人即刻響應:


還有人表示可以提供高質量數據集:


所以,“國產版Sora”的新挑戰者,就這麼來?

計劃細節,已完成3個初步功能

首先,來看目前公佈的技術細節——即團隊打算如何復現Sora。

整體框架上,它將由三部分組成:

Video VQ-VAE

Denoising Diffusion Transformer(去噪擴散型Transformer)

Condition Encoder(條件編碼器)

這和Sora技術報告的內容基本差不多。

對於Sora視頻的可變長寬比,團隊通過參考上海AI Lab剛剛提出的FiT(Flexible Vision Transformer for Diffusion Model,即“升級版DiT”)實施一種動態掩碼策略,從而在並行批量訓練的同時保持靈活的長寬比。


具體來說, 我們將高分辨率視頻在保持長寬比的同時下采樣至最長邊為256像素, 然後在右側和底部用零填充至一致的256x256分辨率。這樣便於videovae以批量編碼視頻, 以及便於擴散模型使用註意力掩碼對批量潛變量進行去噪。


對於可變分辨率,團隊則表示在推理過程中,盡管在固定的256x256分辨率上進行訓練,,但使用位置插值來實現可變分辨率采樣。

具體而言:

我們將可變分辨率噪聲潛變量的位置索引從[0, seq_length-1]下調到[0, 255],以使其與預訓練范圍對齊。這種調整使得基於註意力的擴散模型能夠處理更高分辨率的序列。對於可變時長,則使用VideoGPT中的Video VQ-VAE,,將視頻壓縮至潛在空間,支持這一功能。

同時,還要在擴展空間位置插值至時空維度,實現對可變時長視頻的處理。

在此,主頁也先給兩個demo,分別是10s視頻重建和18s重建,分辨率分別為256x256和196x196:


這三個功能都已經初步實現。

相關的訓練代碼也已經在對應的倉庫上上線:


成員介紹,目前的訓練是在8個A100-80G上進行的(明顯還遠遠不夠),輸入大小為8幀 128 128,大概需要1周時間才能生成類似ucf(一個視頻數據集)的效果。


而從目前已經列出的9項to do事項來看,除可變長寬比、可變分辨率和可變時長,動態掩碼輸入、在embeddings上添加類條件這兩個任務也已完成。

未來要做的包括:

采樣腳本

添加位置插值

在更高分辨率上微調Video-VQVAE

合並SiT

納入更多條件

以及最重要的:使用更多數據和更多GPU進行訓練


袁粒、田永鴻領銜

嚴格來說,Open Sora計劃是北大-兔展AIGC聯合實驗室聯合發起的。

領銜者之一袁粒,為北大信息工程學院助理教授、博導,去年獲得福佈斯30歲以下亞洲傑出人物榜單。


他分別在中國科學技術大學和新加坡國立大學獲得本科和博士學位。

研究方向為深度視覺神經網絡設計和多模態機器學習,代表性一作論文之一T2T-ViT被引次數1000+。

領銜者之二田永鴻,北京大學博雅特聘教授,博士生導師,IEEE、ACM等fellow,兼任鵬城實驗室(深圳)人工智能研究中心副主任,曾任中科院計算所助理研究員、美國明尼蘇達大學訪問教授。


從目前公佈的團隊名單來看,其餘成員大部分為碩士生。

包括袁粒課題組的林彬,他曾多次以一作或共同一作身份參與“北大版多模態MoE模型”MoE-LLaVA、Video-LLaVA和多模態對齊框架LanguageBind(入選ICLR 2024)等工作。


兔展這邊,參與者包括兔展智能創始人、董事長兼CEO董少靈(他也是北大校友)。

完整名單:


誰能率先發佈中文版Sora?

相比ChatGPT,引爆文生視頻賽道的Sora研發難度顯然更大。

誰能奪得Sora中文版的首發權,目前留給公眾的是一個大大的問號。

在這之中,傳聞最大的是字節

今年2月初,張楠辭去抖音集團CEO一職,轉而負責剪映,就引發外界猜測。

很快,一款叫做“Boximator”的視頻生成模型浮出水面。

它基於PixelDance和ModelScope兩個之前的成果上完成訓練。

不過,很快字節就辟謠這不是“字節版sora”:

它的效果離Sora還有很大差距,暫時不具備落地條件,並且至少還需2-3個月才能上線demo給大傢測試。

但,風聲並未就此平息。

去年11月,字節剪映悄悄上線一個AI繪畫工具“Dreamina”,大傢的評價還不錯。

現在,又有消息稱:

Dreamina即將上線類似sora的視頻生成功能(目前在內測)。


不知道,這一次是不是字節亮出的大招呢?

Open Sora項目主頁:

https://pku-yuangroup.github.io/Open-Sora-Plan/blog_cn.html

https://github.com/PKU-YuanGroup/Open-Sora-Plan


相關推薦

2024-03-18

自Sora發佈以來,由於效果驚艷但技術細節寥寥,揭秘、復現Sora成為開發社區最熱議話題之一。比如Colossal-AI團隊推出成本直降46%的Sora訓練推理復現流程。短短兩周時間後,該團隊再次發佈最新進展,復現類Sora方案,並將技術方

2023-04-18

4月18日消息,據“北京大學”微信公眾號介紹,北京大學深圳研究生院信息工程學院助理教授袁粒及三名碩博生組成的團隊,日前開發一款名為ChatExcel的AI辦公輔助工具,可以通過文字聊天實現Excel的交互控制。ChatExcel測試版於

2024-04-22

發佈該研究的提示詞。網友們立馬趕來圍觀,有人還搞起復現。這是怎麼一回事?這項研究核心表明,GPT-4能夠利用真實的單日漏洞(One-day vulnerabilities)。他們收集一個漏洞數據集(包含被CVE描述為嚴重級別的漏洞),然後設

2024-02-20

論文:https://walt-video-diffusion.github.io/assets/W.A.L.T.pdfMSRA和北大聯合團隊提出的統一多模態預訓練模型——NÜWA(女媧),也為Sora做出貢獻。此前的多模態模型要麼隻能處理圖像,要麼隻能處理視頻,而NÜWA則可以為各種視覺合成任

2024-04-28

生數科技由清華系AI公司瑞萊智慧RealAI、螞蟻集團和百度發起的BV百度風投聯合孵化創立,致力於打造可控多模態通用大模型。去年3月,生數科技開源全球首個基於U-ViT框架的多模態擴散大模型UniDiffuser。去年6月,生數科技獲得

2024-02-18

本上是基於謝賽寧等人在去年被ICCV 2023收錄的論文提出的框架設計而成的。而和謝賽寧一起合著這篇論文的William Peebles之後也加入OpenAI,領導開發Sora的技術團隊。所以謝賽寧的對於Sora的技術解讀,具備極高的參考價值。謝賽寧

2024-02-23

舟因199元AI課,一年賣5000萬元而登上熱搜,被戲稱為“AI大神”、AI“教”父。2月22日午間,記者搜索發現,李一舟用於售賣AI課程的微信小程序“一舟一課”已暫停服務,李一舟的個人視頻號現已被禁止關註。此外,李一舟的人

2024-06-13

,讓DiT架構受到業內極大的關註,很多公司和項目也開始復現DiT路線。而視界一粟YiSu”則是基於團隊自研的視頻生成大模型技術,並沒有止步於DiT。該團隊融合LLM和擴散模型的自研架構,結合各種路線的優勢,在多模態融合、

2023-03-06

做Excel表,真就動動嘴就夠!看,輸入想要幹的事:給學生成績排個名吧。簡單敲個回車,表格唰一下就列好!檢查一遍也沒錯。還能跨表格處理。比如標記出兩張不同表格中排名都在前十的學校。哦豁,還有點超越ChatGPT?畢竟

2023-07-15

貓頭鷹的92mm,然後買一臺3D打印機,重新設計顯卡支撐桿框架,樣式上模仿NVIDIA公版的設計。因為顯卡是垂直安裝使用的,輔助背板就省,但後續會看情況考慮再加上。改造完成之後,顯卡變成立式迷你機的造型,運行也完全正

2024-02-26

刻變化。產品經理Mixlab無界社區和ComfyUI中文愛好者社區發起人PM熊叔告訴《IT時報》記者,對於本地市場的需求,諸如百度文心一言等國內研發的大規模預訓練模型,在滿足普遍性應用場景時展現出相當不錯的實用性,但在處理

2024-03-13

人員收到回信,迅雷安全響應中心稱已經收到報告,一旦復現漏洞將與研究人員聯系 (這應該是自動回復的通知模板)。2024 年 2 月 10 日:研究人員向迅雷提醒稱距離漏洞公佈隻有 1 個月時間,因為有些廠商會忘記截止日期,這個

2023-01-15

1月15日消息,今日起,停運近3年的廣深港高鐵福田至香港西九龍段逐步恢復運營,香港西九龍站同步恢復辦理客運業務。今早7時58分,首趟廣州東站直達香港西九龍站的高鐵列車G6551次準點開出,途經東莞、東莞南、深圳北站後

2024-02-27

能給我們用上?就在Sora還在持續上大分的時候,各路“大神”也沒閑著。除前兩天給大傢聊過賣Sora課的奇行種們,還有一堆人和公司“花式蹭AI熱度”。雖說是蹭熱度,不少人其實還是聊些對 AI 的看法、觀點的。就拿國際一線