OpenAI Sora:“原始版”世界模擬器 我們離黑客帝國還有多遠?


春節假期臨近尾聲。面對持續進攻的谷歌等對手,OpenAI堪稱放出自ChatGPT有史以來最強的大招——Sora。Sora是OpenAI自研的文生視頻擴散模型,可以生成不同長寬比和分辨率的高質量、高保真視頻,長度可達1分鐘。在一些行業觀察人士眼裡,Sora不僅性能遙遙領先於競爭對手,甚至可以被視為一款“世界模擬器”。

Sora:大力出奇跡的產物

剛剛發佈Gemini 1.5 Pro的谷歌,沒有嘗到半點甜頭。剛剛官宣更新幾個小時,OpenAI就拿著Sora來炸場,和Gemini有關的消息,基本都被埋在鋪天蓋地的Sora新聞流裡。

據一些觀察人士推測,OpenAI可能早在去年3月就已經完成Sora的開發,所以才能在公關戰中穩穩占據主動權。

Sora到底優秀在哪裡?簡單來說,它是一個“大力出奇跡”的產物。

Sora結合擴散模型(DALL-E3)和轉換器架構(ChatGPT)。通過這種組合,該模型可以像ChatGPT處理文本一樣處理視頻(即圖像幀的時間序列)。

最令人印象深刻的特點是它能夠逼真地模擬物理世界(OpenAI 將其描述為 “新興的模擬能力”)。在此之前,還沒有任何文字視頻模型能與之相媲美。

例如,Sora“可以在單個生成的視頻中創建多個鏡頭,準確地體現人物和視覺風格”。它可以制作長達1分鐘的視頻,但你也可以隨心所欲地制作短視頻。可以制作不同分辨率的豎版、方形和水平視頻。而且計算量越高,視頻質量也會越高。

AI科學傢、創業者賈佳亞在社交媒體上表示:Sora基於視頻的三維結構分解壓縮,用不同分辨率,不同時長,不同場景的各類視頻大量訓練diffusion model。在學術界連VIT的256*256的分辨率都沒法改的情況下,Sora直接用上高清以及更大的分辨率,這沒幾千上萬張H100都不敢想象如何開始這個項目。

Sora能夠學習真實世界的物理規則

OpenAI表示,Sora不僅能理解提示中出現的風格、場景、角色、物體和概念等,還能理解“這些事物在物理世界中是如何存在的”。

Sora通過海量視頻,以梯度下降的方式在神經參數中隱含地學習物理引擎。Sora是一個可學習的模擬器,或稱“世界模型”。亦即,Sora可能已經學會一套隱含的物理規則,為視頻生成過程提供信息。

毫無疑問,這是AI理解世界的關鍵一步。OpenAI在博文的最後寫道:Sora是能夠理解和模擬現實世界的模型的基礎,我們相信這種能力將成為實現AGI的重要裡程碑。

在OpenAI的Dalle-3圖像生成器所使用的擴散模型版本和GPT-4基於變換器的引擎的支持下,Sora不僅能按照提示要求制作視頻,而且還能顯示出對電影技術的熟練掌握。

這就是講故事的天賦。在另一部根據“渲染華麗的珊瑚礁紙藝世界,到處都是五顏六色的魚和海洋生物”的提示制作的視頻中。該項目的另一位研究員Bill Peebles指出,Sora通過拍攝角度和時機的選擇,創造一種敘事的推動力:

實際上有多個鏡頭的變化——這些變化不是拼接在一起的,而是由模型一次性生成的。我們沒有告訴它要這麼做,它隻是自動這麼做。

Sora不僅能根據文本制作圖像和視頻,或將圖像和視頻轉換為其他視頻,而且還能以通用、可擴展的方式完成這些工作,這一點與競爭對手不同。

這種通用性和可擴展性促使人們預測人工智能將顛覆好萊塢和整個電影制作。考慮到進步的速度,想象一下幾個月後人工智能模型能夠制作出長達5或10分鐘的多場景、多角色復雜視頻並不是什麼瘋狂的事情。

目前Sora還在接受安全檢查和對抗性測試,沒有正式發佈。OpenAI希望從“世界各地的政策制定者、教育工作者和藝術傢”那裡收集反饋意見。他們還在開發一種檢測分類器來識別Sora制作的視頻,並研究如何防止錯誤信息。

要想讓文字視頻威脅到真正的電影制作,恐怕還需要很長一段時間。你不可能把120個一分鐘長的Sora片段拼接成一部連貫的電影,因為模型不會以完全相同的方式對提示做出反應,因此無法確保輸出視頻的連續性。

但時間限制並不妨礙Sora和類似的軟件顛覆TikTok、Reel和其他短視頻平臺的生產方法。

一位研究者表示:要制作一部專業電影,你需要大量昂貴的設備,這種模式將使在社交媒體上制作視頻的普通人有能力制作出非常高質量的內容。


相關推薦

2024-02-23

OpenAI日前推出的視頻生成模型Sora持續引爆相關概念,被視為視頻生成服務的重大突破。然而,來自競爭對手的科學傢卻潑一盆冷水。Sora因其視頻穩定性和清晰度而受到市場青睞,但還有一些人對其給予更高厚望,認為其或許有

2024-02-18

OpenAI首個AI視頻模型Sora橫空出世,再次創造歷史。這個堪稱“世界模型”的技術報告也在今天發佈,不過依然沒有公開具體訓練細節。昨天白天,“現實不存在”開始全網刷屏。“我們這麼快就步入下一個時代?Sora簡直太炸裂

2024-02-18

OpenAI首個AI視頻模型Sora橫空出世,再次創造歷史。這個堪稱“世界模型”的技術報告也在今天發佈,不過依然沒有公開具體訓練細節。昨天白天,“現實不存在”開始全網刷屏。“我們這麼快就步入下一個時代?Sora簡直太炸裂

2024-02-17

OpenAI首個AI視頻模型Sora橫空出世,再次創造歷史。這個堪稱“世界模型”的技術報告也在今天發佈,不過依然沒有公開具體訓練細節。昨天白天,“現實不存在”開始全網刷屏。“我們這麼快就步入下一個時代?Sora簡直太炸裂

2024-02-17

OpenAI首個AI視頻模型Sora橫空出世,再次創造歷史。這個堪稱“世界模型”的技術報告也在今天發佈,不過依然沒有公開具體訓練細節。昨天白天,“現實不存在”開始全網刷屏。“我們這麼快就步入下一個時代?Sora簡直太炸裂

2024-02-19

出,馬斯克可能是心情最復雜的一個。不僅因為其本人與OpenAI早年的糾葛,更因為Sora實現的其實是特斯拉早幾年間一直在探索的方向。2月18日,馬斯克在科技主播@Dr.KnowItAll一條主題為‘OpenAI的重磅炸彈證實特斯拉的理論’的視

2024-02-16

OpenAI新推出的首個視頻生成模型-視頻生成模型索拉(Sora)可以完成一些真正令人印象深刻的影片生成壯舉。不過,至少從今天晚上發表的一篇技術論文來看,這個模型比OpenAI最初想象的還要厲害。這篇題為《作為世界模擬器的

2024-02-16

2月16日凌晨,OpenAI再次扔出一枚深水炸彈,發佈首個文生視頻模型Sora。據介紹,Sora可以直接輸出長達60秒的視頻,並且包含高度細致的背景、復雜的多角度鏡頭,以及富有情感的多個角色。目前官網上已經更新48個視頻demo,在

2024-02-18

密時空Patches,竟是來自GoogleDeepMind和謝賽寧的論文成果。OpenAI,永遠快別人一步!像ChatGPT成功搶Claude的頭條一樣,這一次,Google核彈級大殺器Gemini1.5才推出沒幾個小時,全世界的目光就被OpenAI的Sora搶去。100萬token的上下文,僅

2024-02-26

Sora,已經成為人工智能界的開年“王炸”。2月16日,OpenAI發佈Sora大模型,僅需通過文本即可自動生成視頻,這也是繼文本模型ChatGPT和圖片模型Dall-E之後,又一極具顛覆性的大模型產品。文本生成視頻並非始於Sora。據不完全統

2024-02-17

註時事。沒想到一覺醒來,朋友圈突然被一則新聞刷屏:OpenAI發佈文生視頻模型Sora。好傢夥,瞬間給我拉回工作氛圍。人們一直期待GPT-5,但Sora帶來的轟動不亞於GPT-5的發佈。之前大傢還在關註,Google推出的Gemini能否殺死GPT4,

2023-01-31

現實中可以造出550W,我們甚至可以從原子層面模擬整個世界。我們離“MOSS”還有多遠?在《流浪地球2》中,MOSS是搭載於最新型量子計算機550W上的人工智能,550W的強大在電影中有著多處表現。比如同時控制全球各地的數萬臺行

2024-02-16

OpenAI的文生視頻模型Sora刷屏。它有多震撼呢?這麼說吧,上一次這麼瘋狂的刷屏可能還是人類第一次見到ChatGPT的時候。以及,Sora之前幾小時Google剛剛推出它最強的LLMGemini1.5,並試圖宣稱自己終於殺死GPT-4,然而,顯然現在沒人

2024-02-19

Sora一夜之間爆火全球。但奇怪的是,OpenAI聯合創始人兼首席科學傢伊爾亞·蘇茨克維(IlyaSutskever)卻在保持沉默,沒有轉發任何一條關於Sora的視頻或推文。Sora目前沒有公開測試權限,僅僅向公司內部負責安全風險評估的紅隊成