剛發佈就被對標Sora,這個國產模型來頭這麼大?


前幾天上網沖浪的時候,刷到幾個AI視頻片段。大船駛來的壓迫感,被風吹起的發絲和絲巾,太空人直接走進現實菜園……一幕幕把我看得是一愣一愣的。真實度也是一絕,在湖邊隨著鏡頭移動,不僅光線跟著變化,連天空、樹木的變化都跟咱肉眼看到的沒差。



要不是右下角有水印,我還差點以為是 Sora 的視頻又上新。

所以這次的主角不是 Sora ,也不是各位差友熟知的 Pika 、 Runway 那幾個 Sora 競品,而是初出茅廬的國產視頻大模型 Vidu

咱看到的那些視頻,就是前幾天, Vidu 在中關村論壇的人工智能主題日上公佈的。

它最長能生成16 秒,一句 “ 木頭玩具船在地毯上航行 ” 的提示詞,就能生成下面這長長的一段,一鏡到底的絲滑程度,怕是路過的謀子導演看都會點贊。


Sora 號稱能真實模擬物理世界的拿手戲, Vidu 照樣也能實現。

讓它生成一段 “ 汽車加速駛過森林裡鄉間小路 ” 的視頻,像是樹林縫隙透過的陽光,後輪揚起的灰塵,都很符合咱們的日常認知。


而且 Vidu 的想象力比咱人還要豐富,畫室裡的一艘船駛向鏡頭的場景,它分分鐘就能給 “ 拍 ” 出來,看這效果,不知道該有多少動效師瑟瑟發抖。


甚至在某些提示詞下, Vidu 的理解能力比 Sora 還強,比如 “ 鏡頭繞著電視旋轉 ” 的提示詞, Sora 壓根兒就沒 get 到旋轉的意思,反而是 Vidu 能輕松理解。


有一說一,在看完 Vidu 的這些視頻後,是真覺得它是目前市面上,唯一一個能在畫面效果上和 Sora 拼一拼的模型。

雖然現在16 秒的 Vidu 在時長上還比不上60 秒的 Sora ,但它的進步也確實是肉眼可見的快,據極客公園消息,上個月, Vidu 在內部隻能生成 8 秒的視頻,上上上個月,還隻能生成 4 秒的視頻。


反正媒體們都把 Vidu 比作是 “ Sora 級視頻大模型 ” ,網友們也都在評論區喊話催他們趕緊開放內測。


不過這裡面更好奇的是,咱之前壓根兒都沒聽說過 Vidu ,怎麼突然平地一聲雷,搞出這麼大的陣仗?

我們也順藤摸瓜找找資料,發現 Vidu 身上,值得說道的東西還挺多,甚至仔細咂摸下,還能從 Sora 身上找出點 Vidu 的影子來( 可沒說反 )。


它背後是一傢名叫生數科技的公司,別看這個公司才剛滿一周歲,但它可是在娘胎裡就開始攢勁兒。因為它的親媽,是清華系AI 企業瑞萊智慧,背後的研究團隊,幾乎全是這裡面的人。

而在成立生數科技之前,團隊就已經把視頻大模型研究得很深入。

尤其是在圖像生成這塊很火的擴散( Diffusion )模型,他們算是業內第一批研究這個模型的,整出來的論文也在 ICML 、 NeurIPS 、 ICLR 各種頂會發個遍。

正是因為有這麼好的底子,早在2022 年 9 月的時候,團隊就找到做 Vidu 的靈感,就是下面這篇論文。


讓 AI 幫咱解讀下,大概的思路就是,擴散模型在生成圖像這塊挺強,而大語言模型裡用的 Transformer 有個規模( Scale )效應,參數堆得越多,性能就越好。團隊就想著,能不能把這兩個的優點結合一下,整個融合架構,提升圖像生成的質量。

於是他們轉頭把擴散模型裡面的 U-Net 給換成 Transformer ,還起個名字叫 U-ViT ( Vision Transformers )。結果試下來發現這麼一結合還真有用,光是相同大小的 U-ViT ,性能就比 U-Net 強。

那好嘛,既然這條路走得通,他們也順勢把技術路線定在 U-ViT 上。

然鵝……在團隊悄悄醞釀 Vidu 的時候,大洋彼岸的UC 伯克利的一個研究,卻讓 OpenAI 的 Sora 捷足先登。

就在清華小分隊提交論文的兩個月後, UC 伯克利也在預印平臺 ArXiv 上提交他們的論文,一樣說要把 Transformers 揉在擴散模型裡面,隻不過名字起的更直白點,叫DiT ( Diffusion Transformers )。


看著是不是挺眼熟,沒錯, OpenAI 的 Sora 模型,用的就是伯克利的 DiT 技術路線。

但因為清華小分隊早發兩個月,當年的計算機視覺頂會 CVPR 2023 還以“ 缺乏創新 ” 的由頭,拒 Sora 的 DiT ,收錄 U-ViT 。

而且早在 2023 年年初的時候,清華小分隊還用 U-ViT ,訓練出一個近 10 億參數量的開源大模型 UniDiffuser 。


算是第一個用行動證明,融合架構也遵守 Scaling Law 這一套規則,也就是說隨著計算量、參數量越來越大,模型的性能就會隨指數級上升。而這個 Scaling Law ,同樣也是 Sora 這麼強的秘密武器。

所以照這麼來盤算,Sora 其實還得叫 Vidu 一聲祖師爺才對……

但現實世界卻是, DiT 被 OpenAI 帶著一路飛升。

清華小分隊呢,計算資源沒 OpenAI 那麼到位,也沒 ChatGPT 這種珠玉在前,總之就是啥啥都不完善,他們隻能慢慢來,先做圖像、 3D 模型,等有傢底兒,再去做視頻。

好在他們身上還是有點實力在的,穩紮穩打慢慢也趕上來。去年 3 月,清華小分隊們成立生數科技後,就在馬不停蹄地搞自傢的產品,現在圖像生成和 3D 模型生成大夥兒都能免費用。


並且靠著這兩個產品,剛滿一周年,它就攢好幾億的傢底。

像是成立 3 個月的時候,就完成一波近億級的天使輪投資,上個月,又完成新一輪的數億元融資。參與投資的,也都是智譜 AI 、 BV 百度風投等等業內大佬。

反正看這波架勢, Vidu 還真有可能成為國內的黑馬,去對標 OpenAI 的 Sora 。

不過生數科技那邊,倒是覺得隻把 Vidu 看作國產版的 Sora ,實在是有點缺乏想象力,因為他們給 Vidu 的定位,可不僅僅是個視頻模型,而是圖、文、視頻全都要,隻不過現在視頻暫時是重點。

當然,好聽話誰都會說,能不能搞出來,咱還得實打實地看成品。

已經去排隊,等拿到內測資格,再跟大夥兒同步一波……


相關推薦

2024-04-28

壇年會未來人工智能先鋒論壇上,生數科技聯合清華大學發佈中國首個長時長、高一致性、高動態性視頻大模型Vidu。這也是自Sora發佈之後全球率先取得重大突破的視頻大模型,性能全面對標國際頂尖水平,還在加速迭代提升中

2024-03-16

時間最刷屏的新聞之一,就是好萊塢大導Tyler Perry在Sora剛剛發佈一周後,取消8億美元工作室擴建計劃的消息。對此,導演Scott Mann也認為,Sora將“給我們的行業帶來自電影攝影機發明以來最大的變革。”2018年,Mann參與創立Flawles

2024-02-18

被視為一款“世界模擬器”。Sora:大力出奇跡的產物剛剛發佈Gemini 1.5 Pro的谷歌,沒有嘗到半點甜頭。剛剛官宣更新幾個小時,OpenAI就拿著Sora來炸場,和Gemini有關的消息,基本都被埋在鋪天蓋地的Sora新聞流裡。據一些觀察人士

2024-02-16

a。人們一直期待GPT-5,但Sora帶來的轟動不亞於一次GPT-5的發佈。作為OpenAI 首推的文本轉視頻模型,Sora能夠根據文本指令或靜態圖像生成長達 1分鐘的視頻,其中包含精細復雜的場景、生動的角色表情以及復雜的鏡頭運動。同時

2024-02-18

對於Google被截胡一事,網友銳評道:OpenAI用Sora對抗Gemini發佈的方式簡直,Google從沒有受過這樣的打擊。這不得不讓人懷疑,OpenAI手裡是不是還攥著一堆秘密武器,每當競爭對手發佈新技術,他們就放出來一個爆炸級消息。要知

2023-11-25

6% 的零件。就這樣,特斯拉搗鼓出自己的第一款車,剛發佈的時候, Roadster 有 248 匹馬力, 0-60 英裡 / 小時加速時間 3.9 秒,續航 394 公裡。這些參數放在現在看可能沒啥,但在當時絕對是頂級的。畢竟對於油

2024-02-19

胡錫進剛剛發文點評OpenAI前幾天發佈的文生模型Sora,稱一些說Sora不代表什麼的人太不負責任。美國人工智能企業OpenAI在幾天前發佈Sora,可以根據文字描述生成最長一分鐘逼真視頻,引發行業震動。以下為胡錫進點評全文:美國

2024-06-13

,北京極佳視界科技有限公司聯合清華大學自動化系正式發佈我國首個超長時長、高性價比的Sora級視頻生成大模型視界一粟 YiSu”。該大模型擁有模型原生的16秒超長時長,並可生成至1分鐘以上視頻。據介紹,YiSu模型成本更低

2024-06-30

快科技6月30日消息,科大訊飛最新發佈的訊飛星火大模型V4.0,在多個關鍵能力上實現對GPT-4 Turbo的超越。在近日的發佈會上,科大訊飛董事長劉慶峰宣佈,星火V4.0在文本生成、語言理解、知識問答、邏輯推理和數學能力等方面

2022-09-09

iPhone14系列剛剛發佈,昨天看看朋友圈,就被朋友圈裡的“靈動島”三個字刷屏。帶著一頭霧水才發現,原來靈動島就是iPhone為彌補藥丸屏的缺陷而設計出來的一個UI交互,由於這個交互設計巧妙的避開藥丸屏的缺點,讓果粉們

2024-02-27

的看法、觀點的。就拿國際一線吃瓜仔馬斯克來說, Sora 剛發佈他就貼臉開大,咱傢特斯拉去年就有很好的視頻生成。但說實話,我要是特斯拉公關( 如果有的話 ),我肯定跟老馬說,咱要不就別硬蹭唄,這看起來和 Sora 根本

2024-02-18

次創造歷史。這個堪稱“世界模型”的技術報告也在今天發佈,不過依然沒有公開具體訓練細節。昨天白天,“現實不存在”開始全網刷屏。“我們這麼快就步入下一個時代?Sora簡直太炸裂”。“這就是電影制作的未來”!Googl

2024-02-18

次創造歷史。這個堪稱“世界模型”的技術報告也在今天發佈,不過依然沒有公開具體訓練細節。昨天白天,“現實不存在”開始全網刷屏。“我們這麼快就步入下一個時代?Sora簡直太炸裂”。“這就是電影制作的未來”!Googl

2024-02-17

次創造歷史。這個堪稱“世界模型”的技術報告也在今天發佈,不過依然沒有公開具體訓練細節。昨天白天,“現實不存在”開始全網刷屏。“我們這麼快就步入下一個時代?Sora簡直太炸裂”。“這就是電影制作的未來”!Googl