強大到不敢給普通人用!史詩級大模型 Sora 如何讓眾行業一夜變天?


聲明:本文來自於微信公眾號 InfoQ(ID:infoqchina),作者:凌,授權站長之傢轉載發佈。

1視頻生成模型“新王登基”,Sora 何以成為全球焦點?

2023年以來,多模態視頻生成技術取得顯著的進展和突破,從 Runway 到 Pika 再到年末的 VideoPoet,視頻生成模型進入到加速階段。2024年2月,OpenAI 旗下視頻生成模型 Sora 正式對外發佈。Sora 一名源於日文“空”(そら sora),取自天空之意,以示其無限的創造潛力。與 Runway、Pika、VideoPoet 等“前輩”相比,Sora 在視頻生成效果和質量上具有明顯優勢。也正因如此,Sora 一經發佈就在全球范圍內掀起討論熱潮,迅速成為當前最受關註的模型之一。

“Sora 的出現時間要比我們預想的要早很多,OpenAI 已經提前帶來驚喜”。WeShop 唯象 GM 吳海波在接受 InfoQ 采訪時提到,從技術層面來看,Sora 並沒有引入全新的理論框架,而是將現有技術進行新的整合。自從 Sora 問世以來,人們對其背後的技術進行深入分析。比如,Meta 的謝賽寧曾在 Twitter 上進行拆解,其認為 Sora 所采用的 DiT 結構,就是基於他在 ICCV2023發佈的 DiT(Diffusion Transformer)思路構建的,這也是支撐 Sora 的一個重要基礎。

在模型架構方面,Runway、Pika 等模型底層采用的是擴散模型(Diffusion Model)技術,利用高斯噪音和 prompt,再通過 U-Net 對噪音進行解析,實現逐幀的渲染。雖然 prompt 通過 Transformer 技術得到前後文的聯系,但視頻生成中卻沒有較大時間軸或前後聯系的概念,從而導致先前的視頻隻能生成三四秒,畫面跳躍跳幀等問題嚴重。

而 Sora 利用 Transformer 替代 Diffusion 的 U-Net,不限制原始視頻的尺寸,不僅能通過 Transformer 技術保證前後的連貫性,還能保證生成視頻在各個畫幅比例下都有很好的表現,從而生成時長更長、效果更好的視頻。

目前,Sora 能夠生成1分鐘的視頻,深圳市鼎盛方圓科技發展有限公司創始人黃鴻波表示,理論上來看,Sora 是能夠生成生成更長時間的視頻的,但其中的不確定性會更多,也會需要更高的算力。“從零到一很簡單,但再想往上則需要質的飛躍,難度比較大”。

比起生成的視頻時長,黃鴻波認為,Sora 這類視頻生成模型更應解決的是如何保持人物一致性和場景一致性。這兩點都是目前業內比較難以克服的難題。以人物為例,一段完整的視頻中不僅存在主角,還存在配角和各種人物關系。在電影和電視劇的實際拍攝中,人是真實存在不會改變的,但 Sora 或其他目前現存的技術都無法保證人物的一致性。人物的每次生成,臉型、膚色、眼睛大小、痣的位置等都會發生變化。場景同樣如此,不同的鏡頭會從不同角度進行拍攝,但周圍的場景需要有一些變化。“從目前的視頻演示來看,Sora 已經趨近完美,如果能解決人物一致性和場景一致性的問題,基本上就能達到影視公司想要的結果”。

此外,Sora 對“世界模型”的實現方式也存在一定爭議。OpenAI 聲稱 Sora“擴展視頻生成模型是構建物理世界通用模擬器的一條可行之路”。英偉達高級研究科學傢 Jim Fan 也斷言,Sora 是一個數據驅動的物理引擎,是一個可學習的模擬器,或“世界模型”。但也有人對此提出質疑。圖靈獎得主 Yann LeCun 認為 Sora 並不理解物理世界,甚至稱 Sora 對“世界模型”的實現方式註定是死路一條。

具體來說,Sora 在生成視頻時依賴於文本指令,這些文本描述場景和意義。如果 Sora 能夠理解視頻內容,並在給定一段視頻後,補充出更長的視頻,且前後情節邏輯一致,那麼這將是一個重要的進步。這將表明 Sora 不僅僅是通過視覺理解事物,而是能夠從更深層次上理解視頻內容。

“長期來看,如果 Sora 能夠在視頻中實現首尾呼應,比如在電影中常見的前後呼應的情節,這表明它具有更長的因果鏈理解能力。這將是一個重要的裡程碑,表明 Sora 越來越像是一個世界模型,能夠理解物理定律和社會規則。”吳海波提到,目前,Sora 還處於一個比較早期的階段,類似於早期的 GPT-3——它展現出一定的能力,但尚未達到 ChatGPT 那樣的成熟度。“但它的進步速度很快,2024年值得我們期待,屆時應該會有許多新的進展出現。”

2Sora 如何重塑千行百業?

當前,Sora 還未正式對外開放。在近日的一場專訪中,Sora 的核心團隊成員表示 Sora 太過強大,還不能讓普通人很快就用到,OpenAI 正在收集用戶反饋,還有很多安全工作要做。而根據 OpenAI CTO Mira Murati 此前的說法,“Sora 最快在今年內開放公測”。

作為一個基礎模型,Sora 無疑會對各行各業產生影響,在影視、電商、遊戲行業中,Sora 一定會帶來新的想象力。其中,影視行業將會成為 Sora 的首選

目前,影視行業的制作流程涉及多個環節。編劇完成劇本後,會尋找合適的導演合作。在好萊塢或國內的大型制片廠,他們通常會先找普通演員拍攝樣品,需要將90分鐘的電影精華部分濃縮,拍攝成30至40分鐘的樣片,用於向投資人展示電影的內容、故事情節、人物設定以及特效應用等。隻有當投資人認可故事的創新點和市場潛力後,才會決定投資。不過,這類樣片的制作成本相當高,每分鐘的制作費用在1至2萬元之間。

如果引入 Sora 這類視頻生成模型,將大幅降低制作成本,成本可能壓縮至每分鐘數千元。此外,Sora 還能免除影視制作的場景搭設、威亞特效、影視後期等工作,顯著提高制作效率。

“在與北京影視行業的合作中,我發現他們在拍攝電視劇和電影時,經常遇到一些無法通過常規手段拍攝的鏡頭,如宇宙大爆炸、地月軌道等場景,這些都需要依賴3D 後期制作來完成。但這類鏡頭的制作成本極高。以電影行業常見的25幀 / 秒為例,一個2至3秒的鏡頭就包含約70幀的畫面,按照幀計費的3D 後期制作費用,這樣短暫的鏡頭也需要投入上千甚至上萬的成本。”黃鴻波介紹道,有 Sora 技術後,影視公司可以將那些特效制作成本高昂或無法通過演員實際拍攝的場景,通過 Sora 或類似的視頻生成模型來展現。“Sora 不僅對影視行業有益,它對傳統廣告制作、遊戲和流媒體方面也有一定的影響,一些畫面鏡頭的拍攝通過 AI 在幾分鐘內就能完成,節省大量的人力物力。”

在電商行業中,Sora 這類視頻生成模型也帶來新的想象力。

傳統的產品視頻拍攝需要模特、場景佈置、拍攝以及後期制作等多個環節,而 Sora 隻需輸入相應的文本描述或圖片,即可在短時間內生成逼真的視頻,極大地提高電商營銷素材制作效率。此外,商傢可以利用 Sora 生成產品在不同場景下的視頻,或者展示產品在不同空間佈局下的效果,從而提升消費者的購買意願。

雖然 Sora 在視頻生成方面取得顯著進步,但要想真正應用在電商行業中,仍面臨一些挑戰。“目前,用戶可以通過提交指令給 Sora,Sora 會在一段時間後生成視頻反饋給用戶。這種交互方式雖然令人興奮,但也存在局限性,因為它缺乏明確的控制和交互方式。”吳海波提到,以電商為例,商傢可能更希望基於某個已有商品生成視頻內容,在將實體商品與視頻結合方面,Sora 目前還無法滿足需求。Sora 無法將商傢的商品巧妙地融入視頻中,並展示商品在真實場景中的應用,讓潛在顧客直觀地解商品。

“盡管 Sora 已經展示在自由發揮狀態下的創造力,但我們還不清楚如何將這些技術與現有電商平臺有效結合,如何讓它按照我們的需求生成內容,還有待進步一的優化。”吳海波表示,要想在電商行業中進一步拓展 Sora 技術的應用范圍,還需要不斷研究並探索新的方法,以實現商品與視頻的完美結合。

遊戲作為較早落地 AIGC 技術的行業之一,在制作過程中也可引入 Sora 這類視頻生成模型。黃鴻波提到,目前遊戲行業比較容易落地的是大場景、風格轉換和季節轉換類型。

比如,可以借助 Sora 技術,實現遊戲中的季節轉換等場景,通過每個季節2-3秒的場景交替生成遊戲內的視頻,這樣不僅可以提升遊戲的視覺體驗,還能有效減少遊戲的制作開發成本。遊戲內的服裝道具也可以通過 Sora 來完成。而對於遊戲人物的動作,如跑步和飛翔,傳統的制作方法通常涉及到底模建模、骨骼綁定以及動作合成。現在這些工作也可以通過 AI 技術來完成,在最後由人工進行必要的補充和調整,以確保動作的真實性更加出色。

此外,光影和材料的仿真也是遊戲制作中的重要環節,這些同樣可以通過 AI 技術實現。例如,當角色從兩米高的地方跳下時,不同材質的服裝(如絲綢、粗佈、盔甲)會產生不同的漂浮效果、落地速度和聲音,這些細節在遊戲和電影制作中都有著專門的處理流程。

四足動物的動作設計是遊戲行業的痛點之一。人類的走路和跑步動作相對自然,但四足動物的動作往往難以協調。而這類問題正是 Sora 這類技術可以發揮優勢的地方。特別是像貓狗等常見的動物,由於不涉及復雜的 IP 和版權問題,更適合作為實踐案例來解決動作設計上的挑戰。

不過,相較視頻生成模型,圖片生成模型在技術上已經更為成熟,這使得其在多個行業中的應用更加廣泛和深入。

“目前在遊戲行業中應用最多的還是文生圖模型。一般擁有自己 IP 的企業都會利用已有的形象素材,訓練自傢的文生圖模型,生成視頻或相關角色的形象參考”。據黃鴻波介紹,所有的文生圖、文生視頻、角色設計生成、形象設計生成,都無法直接采用生成產物,隻是給設計人員一些靈感和啟發,讓他們以此為參考進行設計和開發。以一個海島傢園類的遊戲為例,可以讓 Stable Diffusion 等工具生成大量的海島、傢園、遊戲風格設計圖,給美術的同學一些啟發,這也是目前企業內多數的落地形式。

在電商行業中,圖片生成模型也已得到廣泛應用。吳海波提到,相較於視頻生成技術,圖片生成技術已經發展得更為成熟,因此在這一領域的應用也更為迅速。去年,核心團隊來自蘑菇街的 AI 商拍工具 WeShop 上線,WeShop 正是基於 Stable Diffusion 模型提供 AI 智能商品圖生成服務。目前,WeShop 主要服務於兩類用戶:一類是供應鏈為主的工廠老板,他們可以利用 WeShop AI 將商品圖片轉換成不同模特和背景的圖片;另一類是計劃拓展海外市場的電商,他們可以通過 WeShop AI 將國內商品圖片適配到適合海外市場的模特場景中。

“展望圖片生成技術的未來,我認為 Sora 的成功表明模型規模的重要性,我們預期圖片領域的基礎模型也將取得顯著進步。業界的技術路線和思路正趨於一致,大傢都認識到需要引入 DiT 結構。盡管目前還有一條嘗試純 Transformer 基礎架構的路線,類似 於 GPT,但尚未超越現有技術。然而,隨著 Sora 證明大模型的有效性,我們可以預見將有更多資源投入到圖片生成領域,推動其向前發展。這一點或許尚未得到廣泛關註,但我堅信圖片生成技術很快將迎來重大突破。”吳海波總結道。

3擔心被 Sora 們取代?

Sora 給不同行業帶來巨大變革可能得同時,也給就業市場帶來挑戰,越來越多的從業者開始擔心,自己終將被 Sora 們所取代。首當其沖的是影視行業從業者,不少聲音開始討論“特效公司要死嗎”“導演、後期是不是都要失業”。

對此,受訪專傢們普遍持樂觀態度。以 CG 技術的出現為例,當年 CG 技術嶄露頭角時,許多動畫師曾擔憂自己的工作可能會受到威脅。然而,事實並非如此。實際上,CG 技術並未降低制作電影或動畫的成本,反而使得成本有所上升。與此同時,CG 技術讓人們能夠創作出更高質量、更具視覺震撼力的作品,這反而激發畫師和導演的創造力,使他們能夠制作出更為精彩的內容,也進一步提升整個行業的標準。

吳海波認為,面對 CG 技術這樣的革新,我們應該積極擁抱變化,從中尋找新的機遇,而不是一味地擔憂和抵觸。如果我們固執地堅持舊有的工作方式而不願適應,那麼確實可能會面臨問題。但與此同時,新技術也為我們打開更廣闊的市場,提升行業的上限,並為我們提供更多嘗試不同角度和方法的可能性。“如果你堅持認為自己被新技術替代,這或許是一種無法避免的心態。然而,我認為,有些工作被新技術解放,實際上是一件好事。換個角度看,我們可以說自己是從原有的束縛中得到解放,迎來新的機遇和挑戰。”

Sora 同樣如此。目前來看,Sora 仍隻是一款工具,並不能完全取代某一職位或環節,而是幫助人們更好地提升工作效率。 以影視拍攝流程為例,盡管有 ChatGPT 這樣的大語言模型協助,劇本編寫仍需編劇來把控故事情節和故事性。分鏡鏡頭的策劃也需要導演來完成,因為模型生成的成品往往缺乏靈魂,需要人類加入細節、個人的情感和靈魂。同樣,演員也是不可或缺的角色,因為觀眾既有人註重故事情節,也有人喜歡看明星的表演,如果取代明星,電影就失去其獨特的意義。

那麼,Sora 究竟帶來什麼,又能取代什麼呢?

黃鴻波認為,Sora 確實能加速視頻和電影的制作效率,降低生產成本,並有可能取代部分特效制作公司的流程。但需要註意的是,這並非完全的取代,而是借助 Sora 完成一個大致的 demo,為特效公司提供思路,並替代部分相對簡單的特效制作。原本需要十天才能完成的工作,現在可能隻需要三五天就能完成。必須明確的是,任何技術的誕生都隻是一種工具,其存在的目的是為服務於人類。因此,完全的取代並不存在,工具的作用更多的是降低成本、提升效率。

4寫在最後:參與到 AI 變革中來

近兩年,AI 技術的快速演變和不斷創新的特性超乎所有人的預期,一個又一個創新模型的發佈讓人們不斷驚嘆於 AI 的潛力和能力。時代之下,更應該保持對 AI 技術發展的關註,隨時準備迎接新的突破和變化,通過不斷學習和適應新技術,在 AI 技術的浪潮中找到自己的位置,參與到 AI 變革中來。

“我們現在的目標是首先參與到這場變革中來,將自己轉變為一個 AI Native 的公司。我們從蘑菇街獨立出一個團隊來開發 WeShop,就是希望以創業團隊的心態來完成這個項目。如果我們仍然使用傳統的業務模式和資源來應用 AI 技術,我們可能會錯過未來真正的大機會。因此,我們保持創業團隊的狀態,摒棄過去的包袱,以便在 AI Native 的環境中創造出新物種,抓住未來的機會。”吳海波認為,當前 AI 技術在電商領域的變革性影響難以清晰描繪,但其一定會為整個行業帶來深刻變革,這不僅僅局限於在現有電商平臺上增加智能問答功能或 AI 拍照等改進,而是 當 AI 技術普及到一定程度時,人們將會見證一個全新的電商生態系統的崛起

對於影視和遊戲行業,AI 帶來的變革同樣在發生,但目前都還缺少一個完整可落地的方案——一個能將文生圖、文生視頻等單一化工具串聯起來的綜合性工具。

黃鴻波認為,理想的情況是,隻需要手稿和文字描述,就能直接流程化生成包括2D 圖像、3D 模型、立繪、骨骼綁定以及動作生成等在內的完整一套內容。對於遊戲行業而言,這樣的綜合性工具能夠極大地提升開發效率。通過輸入文字描述和手稿,工具能夠自動處理生成遊戲所需的各種資源,從而大大減輕開發者的負擔。同樣,影視行業也迫切需要這樣的解決方案。隻需要提供腳本,工具便能直接分析出完整的故事情節梗概,並基於這一情節生成圍繞其展開的視頻內容。這樣不僅能確保畫面風格的統一性和一致性,還能提高影視制作的效率和質量。


相關推薦

2024-04-12

和開關,構成現代計算中0和1的物理表現。為使計算機更強大,半導體工程師們一直在尋求把晶體管做得更小。上個世紀中葉發明的第一批晶體管大約有一厘米長。而現在,它們隻有幾納米寬,或者說十億分之幾米。在芯片制造

2023-12-07

況下實現的!種種測試表明,Gemini在多模態處理上表現出強大的能力,並且在更復雜的推理上也有著極大潛力。詳情可參閱Gemini技術報告:報告地址:https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf中杯、大杯、超大杯

2024-02-19

某些人對我們做常識性教育吧?但是,生成模型最為貼近普通人的知識體系和大眾生活,最容易與大眾經濟對接,吸引各行各業的人使用它們改善自己的工作方式,大力提升效率,它們的應用場景最為廣泛,最容易帶動各行各業

2024-02-18

大量昂貴的設備,這種模式將使在社交媒體上制作視頻的普通人有能力制作出非常高質量的內容。

2024-02-19

OpenAI 最新發佈的 Sora 模型再次讓人們感受到人工智能的強大,強大到令人害怕。Sora 不僅僅是一個視頻生成模型,它湧現出對物理世界的理解能力(盡管還存在局限),OpenAI 直接將其定義為“世界模擬器”(world simulators)——

2024-02-20

a,不僅效果更加真實,就是把Transformer對前後文的理解和強大的一致性,發揮得淋漓盡致。這個全新的科技樹,可真是夠震撼的。不過我們在開頭也可以看到,OpenAI並不是第一個想到這個的人。Transformer框架+LLM路線這種新范式,

2024-07-05

分和刷榜上,李彥宏直言,今天一個震撼發佈,明天一個史詩級更新,但實際應用卻遲遲未見。此外,李彥宏還提到百度在AI應用方面的一些進展,如文心大模型的日調用量已經超過5億,以及在快遞、小說創作、代碼生成等領域

2024-02-23

人類部分工作的可能。不少人擔心自己的工作被AI替代。普通人的焦慮,成為一批人的致富經。在小紅書、抖音、視頻號、知識星球上,隨處可見sora/AI的付費課程。最具代表性的是人稱“AI巨頭”的李一舟,飛瓜數據顯示,其售

2022-09-16

牢獄之災,但他決心在未來幾十年繼續留在加密行業。“史詩級歸零”2018年,在斯坦福大學計算機專業畢業的權道亨建立圍繞穩定幣的公鏈生態Terra,並在這條鏈上發行多種錨定法定貨幣的穩定幣,包括錨定美元的UST、錨定韓元

2024-02-18

為什麼Sora會在全世界掀起滔天巨浪的原因。要解Sora如此強大的能力從何而來,除OpenAI官方給出的技術報告,行業大佬也進行進一步的解讀。LeCun轉發華人學者謝賽寧的推文,認為Sora基本上是基於謝賽寧等人在去年被ICCV 2023收錄

2024-02-16

理引擎Unreal Engine5,簡單粗暴的理解,就是語言能力足夠強大之後,它帶來的泛化能力直接可以學習引擎生成的圖像視頻數據和它體現出的模式,然後還可以直接用學習來的,引擎最能理解的方式給這些利用引擎的強大技術的視

2024-02-16

苦等GPT5沒等到,先等到OpenAI最新的文生視頻模型Sora(名字源於日語“天空)這個效果有點逆天,技術很快不再是創造力和想象力的限制,也意味著創造力和想象力的作用會越來越重要呢。Prompt:  “Beautiful, snowy Tokyo city is bust

2024-03-19

據媒體報道,OpenAICEO奧特曼首次公開表示,GPT-5提升將非常大,任何低估這一點的人和公司都將被碾壓。報道稱,奧特曼在矽谷出席一個活動時現場表示,GPT-5的性能提升的程度將超出預期:“GPT每次開發下一個模型時,都強調

2023-11-08

GPT Builder、Assistants API生成工具,旨在讓不懂編程語言的普通人也能開發出定制化GPT對話助手和AI agents分身,以此來降低開發的難度;在收入變現環節,OpenAI承諾將向建造最有用和最多使用GPTs的人支付收入,與創作者分享收入;