Sora,已經成為人工智能界的開年“王炸”。2月16日,OpenAI發佈Sora大模型,僅需通過文本即可自動生成視頻,這也是繼文本模型ChatGPT和圖片模型Dall-E之後,又一極具顛覆性的大模型產品。
文本生成視頻並非始於Sora。據不完全統計,截至去年年底,全球范圍已湧現包括Runway、Pika、Stable Video Diffusion在內的超過20款同類產品。但Sora的登場無疑帶來一場革命性沖擊,其展現出來的卓越性能近乎達到對同類產品的“碾壓”級別。
OpenAI祭出Sora後,中美的AI差距會如何演變,這一步是“天塹”,還是“咫尺”?
Sora
顛覆性“世界模型”
AI差距會加大?
Sora所展示的顛覆性體現在多個維度,可以直接輸出的視頻長達60秒,並且視頻內含復雜精細的背景環境、動態多變的運鏡、多樣化的角色表現以及一鏡到底或切換多機位的無縫對接,從人物微妙的表情變化至動物生動的姿態模擬,都足以以假亂真。
在OpenAI發佈的視頻中,一名時尚女性走過喧鬧繁華的東京街頭,背景建築、街道以及人像的逼真程度,都保持高度一致性,哪怕是各種鏡頭的蒙太奇,都沒有出現明顯的失真。
有人評價,由Sora生成的視頻,無論是光影色彩的轉變,還是鏡頭移動,甚至細微到紋理結構變化,都呈現出較高質感。它還能模擬現實世界的物理規律,像“一杯咖啡中,兩艘海盜船展開激烈的戰鬥”這段視頻,不僅呈現咖啡的流體動力學和逼真的光影渲染,還運用光線追蹤和移軸攝影技術等,技能強大。
OpenAI強調,“Sora是能夠理解和模擬現實世界模型的基礎,我們相信這一功能將成為實現通用人工智能(AGI)的重要裡程碑。”
Sora的橫空出世引發關於中美AI差距是否進一步加大的熱議。360公司周鴻禕指出,盡管國內大模型發展水平接近GPT-3.5,但與GPT-4.0相比仍存在一年半左右的差距。
周鴻禕認為,OpenAI可能還握有未公開的秘密武器,“中國跟美國的AI差距可能還在加大。”
與此同時,不少業內人士表示,中美AI發展的根本差距或許不在於技術本身。
OpenAI
數據是“秘密武器”
遊戲引擎或是關鍵
《IT時報》記者註意到,根據OpenAI發佈的技術報告,Sora強大能力歸功於兩點:其一是使用基於Transformer的擴散模型(Diffusion Model);其二是將不同類型視覺數據轉化為統一格式——像素塊(patch),從而能利用數量龐大、質量過硬且算力性價比高的數據。
技術報告中,OpenAI並沒有披露訓練來源和具體細節,業內人士認為,數據很可能是Sora成功的最關鍵因素之一。
“我覺得最核心的一點是OpenAI有足夠的數據。”Logenic AI聯合創始人李博傑向《IT時報》記者表示,OpenAI之所以能夠在生成模型領域取得突破,主要原因在於,其數據質量和數量上的顯著優勢。
浙江大學百人計劃研究員、博士生導師趙俊博在接受澎湃新聞采訪時也表示,對於Sora采用怎樣的數據進行訓練,圈內依然眾說紛紜,推測可能是運用遊戲引擎生成的大規模數據:“可能是遊戲引擎裡面吐出來這種數據,但它這個數據到底怎麼收集、如何生產加工,最後如何喂到Sora裡面進行管線化的預訓練,我們確實不知道。”
OpenAI曾發佈兩個20秒長的Sora版《我的世界》演示視頻,研究人員向Sora提供包含“Minecraft”(《我的世界》遊戲)一詞的提示後,Sora可以渲染出與《我的世界》遊戲極其相似的HUD、高保真度渲染世界及遊戲動態,同時還能控制玩傢角色。
值得一提的是,去年8月,OpenAI官宣有史以來第一次收購,收購對象為制作開源版《我的世界》的初創公司Global illumination。李博傑猜測,從Sora版《我的世界》演示成果來看,OpenAI對Global illumination收購或許為Sora的數據積累做一定貢獻。
在算力方面,雖然OpenAI訓練Sora模型使用的GPU卡數量並非無法企及,但其他公司在具備足夠硬件資源的情況下,仍然難以復制OpenAI的成功,主要瓶頸還是在於如何獲取和處理大規模高質量的視頻數據。
《IT時報》記者註意到,收購Global illumination的同時,OpenAI宣佈以創新方法來訓練AI模型,有望省去標註大量資料的訓練過程。
彼時OpenAI所公佈的VPT“視頻預訓練模型”,讓AI學會在《我的世界》裡從頭開始造石鎬。原本整套流程需要一個骨灰級玩傢至少20分鐘的時間才能完成,總計要操作24000次。而研究人員首先收集一波數據標註外包們玩遊戲的數據,其中包含視頻和鍵鼠操作的記錄。然後,利用這些數據制作逆動力學模型(inverse dynamics model,IDM),從而推測出視頻裡每一步在進行的時候,鍵鼠都是怎麼動的。
這樣,整個任務就變得簡單多,隻需比原來少很多的數據就可以實現目的。這項研究發表於2022年6月,同時文中還註明這個工作已經進行一年之久,也就是說,OpenAI至少從2021年起就開始進行這項研究。
“即使是Google這樣全球數據量最大的公司,在訓練大模型時,訓練數據也未必能比OpenAI更好。”相比之下,國內公司在數據上的積累和利用上可能還有一定差距。李博傑認為,OpenAI的先發優勢決定早期的數據壁壘,對於後進入市場的公司來說,增加追趕的難度。
一方面,由於政策變化和其他限制,後來者可能無法獲取之前可用的一些關鍵數據;另一方面,隨著AI生成內容越來越多地充斥互聯網,原始的真實世界數據被“污染”,使得獲取高質量、無偏見的訓練數據更加困難。
這與GPT-4的情況類似,盡管其成功離不開強大的算力支持,但最核心的競爭優勢仍然是龐大、高質量的數據集。許多其他公司即便有充足的計算資源,但在構建和利用同等規模與質量的數據集上遇到挑戰,因此未能及時跟進推出類似的尖端模型。
國內AI
文本大模型進步明顯
多模態大模型差距較大
OpenAI在技術報告中承認,Sora可能難以準確模擬復雜場景的物理原理;可能無法理解因果關系;還可能混淆提示的空間細節;可能難以精確描述隨著時間推移發生的事件,例如遵循特定的相機軌跡等。
“Sora本質上還是一個規模相對比較小的模型。”對此李博傑認為,Sora出現更大的意義是證明構建世界模型的重要性,並為行業指明一條正確的研究路徑,但未來的發展趨勢依然是像GPT-5這樣端到端多模態大模型,能夠更好地理解和生成包含復雜情節和邏輯的內容。
李博傑告訴《IT時報》記者,目前國內外在AI大模型發展上的差距主要體現在多模態模型的發展上。在國內,部分公司已經能在文本模型上取得顯著成果,達到或超過GPT-3.5的水平,並正朝著GPT-4的方向努力追趕,這顯示出國內企業在單一文本處理領域的實力和進步速度。
然而,在多模態模型研發方面,國內許多專註於大模型開發的公司可能尚未充分認識到多模態技術的重要性,沒有投入足夠的人力、物力及財力進行相關研發。李博傑認為,市場上普遍認為GPT-4等文本模型表現優秀,因此更多地將重心放在文本處理上,而忽視多模態模型的構建與發展。
另外,國內公司在探索創新路徑時可能會受到資源限制,包括算力、人才密度等方面的制約,相較擁有龐大計算資源和頂尖人才集中的OpenAI等歐美公司,中國公司在自主創新方面面臨更大的挑戰。因此國內企業傾向於跟隨國際領先者已驗證的技術路線,這種策略相對更為穩健且高效,可以快速縮短技術差距。
對齊
國外大模型成本太高
國內應用場景是機會
不少業內人士認為,在底層基礎技術原理上,Sora 並未有實質性的突破,廣發證券分析,Sora或應更多理解為類似於ChatGPT,基於同樣的技術原理,在暴力美學下的又一次重要“量變”。
中科深智創始人兼CEO成維忠在接受媒體采訪時表示,Sora算法意義上突破不大。Sora一方面通過極致的暴力美學,用巨量算力解決幀與幀之間的時序一致性問題,即在Sora中,不但用擴散模型解決同一幀的生成,也用擴散模型解決幀之間的時序生成,這也決定Sora的視頻生成成本短時間內無法降低。在無法解決“幻覺”的情況下,要想生成真正可控可用的視頻,短期內成本高昂。
這些局限或許也將成為後來者的機會。
“就像現在大傢公認GPT-4是最厲害的,但你要真的做公司,會發現根本堅持不幾天,因為GPT-4太貴。所以我們真正在公司裡面使用的這些模型大部分都不是GPT-4,或者用的是開源大模型,能用7B的就不用70B的,能用70B的就不用 GPT-4,價格能差100倍以上,成本是一個非常關鍵的因素。”李博傑透露。
正如其所說,GPT-4雖然強大,但成本確實是一個現實問題,這也促使企業在實際應用中選擇性價比更高的解決方案,如開源模型或規模更小的商用模型。而針對Sora視頻生成,李博傑估算其一條視頻的成本在幾美元到幾十美元不等,如果普及到大眾使用,成本需要降到目前的1%才能接受,降低成本的同時提高生成質量和邏輯連貫性,是亟待解決的關鍵挑戰。
事實上,隨著AI技術的發展,內容生產的各個環節都已經開始經受影響並發生深刻變化。
產品經理Mixlab無界社區和ComfyUI中文愛好者社區發起人PM熊叔告訴《IT時報》記者,對於本地市場的需求,諸如百度文心一言等國內研發的大規模預訓練模型,在滿足普遍性應用場景時展現出相當不錯的實用性,但在處理復雜需求時,還是與國外頂尖大模型存在一定差距。不過,對於大部分現有的生產工具需求而言,當前開源和國內商業化模型已經能夠提供基本可用且較為滿意的服務,尤其是隨著應用場景的逐漸豐富,國內大模型落地在加速。
PM熊叔註意到,去年上半年,AI在內容生產中還隻是承擔一些簡單的配音工作,用於批量生產質量較低的影視解說等場景。但到下半年,AI技術進一步滲透到內容制作的重要環節,如重繪動畫作品,正規團隊開始利用AI技術來提升作品質量和降低生產成本。另一方面,AI化的分析和輔助工具也在影視行業中逐漸普及,改變原有的創作流程,使得專業影視作品能夠通過AI生成的方式降低成本並提高可控性。
在這過程中,開源社區的力量不容小覷。PM熊叔指出,OpenAI的部分模型雖然並未完全開源,但其研究成果和論文發表對全球科研團隊和開源社區具有重大啟發作用。一旦有類似功能的論文或部分技術細節被公開,眾多開源團隊和開發者會迅速跟進,復現、改進並推出開源版本的模型。例如,GPT系列的成功激發眾多開源項目去構建類似的語言模型,這些模型在不斷優化和迭代之後,其性能表現能夠逐漸逼近,甚至在某些特定任務上與閉源先進模型相媲美。
李博傑也認為,在泛娛樂類應用領域,國內公司借助豐富生態與應用場景的優勢,或能在應用層面上實現趕超,並有機會通過出海拓展市場。