快科技2月16日消息,OpenAI日前發佈首款文生視頻模型Sora模型,完美繼承DALLE 3的畫質和遵循指令能力其支持用戶輸入文本描述,生成一段長達1分鐘的高清流暢視頻。
該模型可以深度模擬真實物理世界,標志著人工智能在理解真實世界場景,並與之互動的能力方面實現重大飛躍。
官方公佈的生成視頻現實,以中國龍年春節為提示詞生成的視頻中,熙熙攘攘的人群中,有人在舞龍,舞龍動作相當絲滑標準,還有人舉起手機拍攝,場景細節豐富、嚴謹。
另一段都市麗人”漫步東京雨後街頭視頻中,路面上的水漬倒影細節逼真,霓虹燈光影效果堪比實景,如果不是標註說明,很多人意識不到這是由AI生成的視頻片段。
OpenAI表示,技術團隊正在教AI理解和模擬運動中的物理世界,目標是訓練模型來幫助人們解決需要現實世界交互的問題。
根據文本提示生成視頻,僅僅是整個計劃其中的一步。
目前Sora已經能生成具有多個角色、包含特定運動的復雜場景,不僅能理解用戶在提示中提出的要求,還解這些物體在物理世界中的存在方式。
不過,Sora當前也存在局限性,OpenAI稱其可能難以準確模擬復雜場景的物理原理,並且可能無法理解因果關系。
該模型還可能混淆提示的空間細節,例如混淆左右,並且可能難以精確描述隨著時間推移發生的事件,例如遵循特定的相機軌跡。
即便如此,OpenAI的首個視頻模型發佈後,不少網友驚呼:不少人要丟工作”、整個素材行業可能都會因此衰落”、語言大模型後,OpenAI又要一次加快AI進化”。
目前已有一些視覺藝術傢、設計師和電影制作人(以及OpenAI員工)獲得Sora訪問權限,他們也已開始不斷Po出新的作品,為人們展示AI生成視頻的無限創意可能。
下附OpenAI視頻模型Sora官網:https://openai.com/sora