AI(人工智能)新銳巨頭OpenAI近日推出文生視頻模型Sora,成為繼聊天機器人ChatGPT之後又一大新爆款。在Sora官網上,OpenAI寫道:“我們正在教AI理解和模擬運動中的物理世界,目的是訓練模型幫助人們解決需要現實世界互動的問題。”
根據OpenAI的介紹,通過“一次性為模型提供多幀的預測”,Sora可以生成長達一分鐘的視頻,並能實現單視頻的多角度鏡頭切換,還能通過“將視頻和圖像表現為較小數據單位的集合”來獲得更廣泛的數據,搭建模擬現實世界的逼真模型。
雖然還沒有向公眾開放,由於在AI生成視頻時長上成功突破到一分鐘,再加上公開演示視頻的高度逼真和高質量,Sora立刻引起轟動。特斯拉CEO埃隆·馬斯克(Elon Musk)在X(原推特)平臺上感嘆“人類願賭服輸(gg humans)”,360集團創始人、董事長兼CEO周鴻禕則預言“AGI(通用人工智能)實現將從10年縮短到1年”。
AI視頻生成賽道競爭日漸激烈
毫無疑問,Sora的出現至少讓競爭對手感到壓力。在Sora發佈後,AI視頻初創公司Runway的CEO克裡斯托瓦爾·巴倫蘇埃拉(Cristóbal Valenzuela)便在X平臺上發佈兩個詞:“Game On(比賽開始)。”
AI視頻公司Stability AI的CEO埃馬德·莫斯塔克(Emad Mostaque)則在X平臺上感慨“奧特曼(OpenAI的創始人兼CEO)真是一個魔術師”,並稱Sora可以被視為AI視頻的GPT3,將在未來幾年內得到擴展、細化、調整和優化。
自2022年以來,最早的一批文生視頻模型都是由Stability AI、Runway和Pika等小型初創公司開發的,而近幾個月來,科技巨頭們也紛紛宣佈將帶著自己的模型進入該領域,例如字節跳動的MagicVideo-V2和谷歌的Lumiere。
谷歌的Lumiere演示片段。來源:Google Research
雖然谷歌和字節跳動發佈的演示視頻都展現出質量的飛躍,但它們都沒能脫離現有文生視頻的一般模式,即輸出單一的、通常是靜止視角的短視頻片段。相比之下,Sora的宣傳視頻包括變換攝像機角度、電影式剪輯和場景變換,而這一切,都是通過單一提示詞生成的。
Sora生成的視頻能夠達到更加逼真的效果。來源:Sora
針對Sora如何達成如此驚人的效果,研究者們也展開分析。在Sora技術報告所引述的32篇論文中,紐約大學助理教授謝賽寧和現任OpenAI工程師的William Peebles在2023年合著的擴散Transformer論文吸引大傢的目光,被視為Sora的研究基礎。謝賽寧也連發多條推文推測,Sora或建立在擴散Transformer模型之上,整個Sora模型可能有30億個參數,數據很可能是Sora成功的最關鍵因素。
雖然OpenAI指出Sora仍存在缺陷,例如難以準確模擬復雜場景的物理特性、無法理解因果關系的具體實例和混淆提示的空間細節,但也在官網上不無驕傲地寫道:“Sora為能夠理解和模擬真實世界的模型提供基礎,我們相信這一能力將是實現AGI(通用人工智能)的重要裡程碑。”
招商策略研報認為,OpenAI在訓練端與輸入端的創新造就Sora的成功。雖然OpenAI表示當前Sora仍有弱點,但從當前展示的效果來看,Sora顯著領先於其他文生視頻模型,推動AI視頻生成進入一個全新的時代。
有望大幅降低成本,好萊塢行業受沖擊?
影視圈也從未如此直觀地感受到AI帶來的威脅與機遇。例如,專註於早期階段投資的美國舊金山投資人Zak Kukoff在X平臺上預測,在五年內,一個不到五人的團隊將能夠利用文生視頻模型和非工會勞動力來制作一部票房收入超過5000萬美元的電影。
美國權威電影業界期刊《好萊塢報道》(The Hollywood Reporter)猜測,OpenAI將利用Sora“大規模進軍好萊塢”:“盡管類似的AI視頻工具已經存在,OpenAI的系統體現該技術的快速增長,可能將會取代大量的勞動力。娛樂業正在努力應對AI,而這一技術將進一步被主流所采納。”
早在Sora之前,AI已經開始影響全球影視行業。行業調查公司CVL Economics在今年1月發佈一項針對300位好萊塢行業領袖的調查,有四分之三的受訪者承認,AI工具促進公司崗位的削減或整合。據估計,在接下來的三年裡,將有近20.4萬個職位受到AI的不利影響,聲音工程師、配音演員和概念藝術傢處於向AI轉變的前沿,視覺效果和其他後期制作工作也很容易受到影響。
有科技媒體指出,在好萊塢,單個場景的制作成本可能高達數百萬美元,Sora可能成為制片人的新選擇,一種更為經濟型的替代品,例如重現滑鐵盧戰役,不需要昂貴的特效或者專門設計拍攝場景,“Sora的魅力在於它能夠培養創造力。導演可以嘗試不同的美學或場景,而無需承擔與傳統制作相關的財務風險。促進創新,為以前僅限於想象力的敘事和視覺風格打開大門……數字藝術傢可以讓技能多元化,但也應該適應這種將永遠改變遊戲規則的新范式。”
不過,由於可能使用受版權保護的內容和生成視頻時長較短等問題,AI生成視頻工具在影視業的使用依然受到局限。許多藝術傢也要求OpenAI公開Sora的訓練數據,懷疑其有使用版權保護內容的嫌疑。曾為多部漫威影片工作過的概念藝術傢卡拉·奧爾蒂斯(Karla Ortiz)指出,大模型需要海量的訓練數據來進行學習,隱藏數據來源是一種逃避社會責任的行為。
而在影視業之前,相對較為不看重視頻內容的廣告業已經受到AI生成視頻工具的顯著沖擊。據統計,在美國洛杉磯,自2018年以來,商業廣告的拍攝量已經出現持續大幅下降,如果排除因疫情而停止大部分制作的2020年,其在2023年已經降至七年最低點。一旦Sora正式開放使用,想必將會進一步推動廣告業向AI轉型。
是破局者,還是破壞者?
除版權問題以外,和所有其他AI工具一樣,Sora過於逼真的視頻表現也帶來一些對於偽造和傳播虛假內容的憂慮。
在充斥著虛假信息的互聯網,深度造假(Deepfake)的道德問題早已成為關註焦點。就在今年1月,由AI生成的美國知名歌手泰勒·斯威夫特(Taylor Swift)的虛假露骨照片在社交媒體上瘋傳,短時間內瀏覽量飆升至上千萬,一時驚動美國白宮。白宮新聞發言人卡裡娜·讓-皮埃爾(Karine Jean-Pierre)警告稱,AI生成照片的傳播“令人擔憂”。由於來不及刪除這些有害圖片,X平臺一度封鎖對斯威夫特的相關搜索。
而一旦照片變成視頻,人們將更加難以分辨真偽。OpenAI也考慮到模型安全性方面的潛在風險,稱其計劃與一個專傢團隊合作測試最新模型,密切關註錯誤信息、仇恨內容和偏見等。OpenAI還表示其正在開發幫助檢測誤導性信息的工具,比如檢測分類器可以判斷視頻是何時由Sora生成的。其文本分類器可檢查並拒絕違反使用政策的文本輸入提示,例如極端暴力、性內容、仇恨圖像、名人肖像等。
但在Sora被正式公開之前,我們都無從得知這些約束條件的具體效果如何。此外,AI技術的復雜性也意味著需要大量金錢和算力資源投入,可能會將權力進一步集中在少數資本或技術寡頭身上。
不管是好是壞,Sora都標志著更先進的AI視頻浪潮的出現,而這股浪潮或許終將顛覆包括影視、廣告乃至遊戲和藝術在內的整個創意產業。