OpenAI首個視頻生成模型發佈一句話生成1分鐘高清視頻

2024-02-16 來自快科技發表於業界精選

快科技2月16日消息，OpenAI日前發佈首款文生視頻模型Sora模型，完美繼承DALLE 3的畫質和遵循指令能力其支持用戶輸入文本描述，生成一段長達1分鐘的高清流暢視頻。

該模型可以深度模擬真實物理世界，標志著人工智能在理解真實世界場景，並與之互動的能力方面實現重大飛躍。

官方公佈的生成視頻現實，以中國龍年春節為提示詞生成的視頻中，熙熙攘攘的人群中，有人在舞龍，舞龍動作相當絲滑標準，還有人舉起手機拍攝，場景細節豐富、嚴謹。

另一段都市麗人”漫步東京雨後街頭視頻中，路面上的水漬倒影細節逼真，霓虹燈光影效果堪比實景，如果不是標註說明，很多人意識不到這是由AI生成的視頻片段。

OpenAI表示，技術團隊正在教AI理解和模擬運動中的物理世界，目標是訓練模型來幫助人們解決需要現實世界交互的問題。

根據文本提示生成視頻，僅僅是整個計劃其中的一步。

目前Sora已經能生成具有多個角色、包含特定運動的復雜場景，不僅能理解用戶在提示中提出的要求，還解這些物體在物理世界中的存在方式。

不過，Sora當前也存在局限性，OpenAI稱其可能難以準確模擬復雜場景的物理原理，並且可能無法理解因果關系。

該模型還可能混淆提示的空間細節，例如混淆左右，並且可能難以精確描述隨著時間推移發生的事件，例如遵循特定的相機軌跡。

即便如此，OpenAI的首個視頻模型發佈後，不少網友驚呼：不少人要丟工作”、整個素材行業可能都會因此衰落”、語言大模型後，OpenAI又要一次加快AI進化”。

目前已有一些視覺藝術傢、設計師和電影制作人（以及OpenAI員工）獲得Sora訪問權限，他們也已開始不斷Po出新的作品，為人們展示AI生成視頻的無限創意可能。

下附OpenAI視頻模型Sora官網：https://openai.com/sora

相關推薦