OpenAI新推出的首個視頻生成模型-視頻生成模型索拉(Sora)可以完成一些真正令人印象深刻的影片生成壯舉。不過,至少從今天晚上發表的一篇技術論文來看,這個模型比OpenAI最初想象的還要厲害。
這篇題為《作為世界模擬器的視頻生成模型》(Video generation models as world simulators)的論文由多位 OpenAI 研究人員共同撰寫,揭開 Sora 架構關鍵方面的神秘面紗--例如,Sora 可以生成任意分辨率和長寬比(最高 1080p)的視頻。根據論文所述,Sora 能夠執行一系列圖像和視頻編輯任務,從創建循環視頻、向前或向後延伸視頻到更改現有視頻的背景。
但最吸引筆者的還是 Sora"模擬數字世界"的能力,OpenAI 的合著者如是說。在一次實驗中,OpenAI 將 Sora 放到 Minecraft 上,讓它在控制玩傢的同時渲染世界及其動態(包括物理)。
Sora 在 Minecraft 中控制一名玩傢,並渲染視頻遊戲世界,請註意,顆粒感是由視頻到 GIF 的轉換工具造成的,而不是 Sora。圖片來源:OpenAIOpenAI
那麼,Sora 是如何做到這一點的呢?正如 NVIDIA 高級研究員 Jim Fan(通過 Quartz)所說,與其說 Sora 是一個創意引擎,不如說它是一個"數據驅動的物理引擎"。它不僅能生成單張照片或視頻,還能確定環境中每個物體的物理特性,並根據這些計算結果渲染照片或視頻(或交互式 3D 世界,視情況而定)。
合著者寫道:"這些功能表明,繼續擴展視頻模型是開發物理和數字世界以及其中的物體、動物和人的高能力模擬器的一條大有可為的途徑。"
現在,Sora在視頻遊戲領域也有其通常的局限性。該模型無法準確模擬玻璃碎裂等基本互動的物理過程。即使在可以建模的互動中,Sora 也經常出現不一致的情況,例如在渲染一個人吃漢堡時,卻無法渲染漢堡上的咬痕。
不過,如果我沒看錯的話,Sora 似乎可以為更逼真(甚至可能是逼真)的程序生成遊戲鋪平道路。這既令人興奮,又令人恐懼(考慮到Deepfake的影響)--這也許就是為什麼 OpenAI 選擇暫時將 Sora 關在一個非常有限的訪問程序後面的原因。