奧爾特曼選取網友提示詞 用OpenAI新款大模型Sora生成視頻


2月16日凌晨,OpenAI再次扔出一枚深水炸彈,發佈首個文生視頻模型Sora。據介紹,Sora可以直接輸出長達60秒的視頻,並且包含高度細致的背景、復雜的多角度鏡頭,以及富有情感的多個角色。目前官網上已經更新48個視頻demo,在這些demo中,Sora不僅能準確呈現細節,還能理解物體在物理世界中的存在,並生成具有豐富情感的角色。該模型還可以根據提示、靜止圖像甚至填補現有視頻中的缺失幀來生成

一位時髦女士漫步在東京街頭,周圍是溫暖閃爍的霓虹燈和動感的城市標志。


一名年約三十的宇航員戴著紅色針織摩托頭盔展開冒險之旅,電影預告片呈現其穿梭於藍天白雲與鹽湖沙漠之間的精彩瞬間,獨特的電影風格、采用35毫米膠片拍攝,色彩鮮艷。


豎屏超近景視角下,這隻蜥蜴細節拉滿:


OpenAI表示,公司正在教授人工智能理解和模擬運動中的物理世界,目標是訓練出能夠幫助人們解決需要與現實世界互動的問題的模型。在此,隆重推出文本到視頻模型——Sora。Sora可以生成長達一分鐘的視頻,同時保證視覺質量和符合用戶提示的要求。

OpenAI創始人兼CEOSam Altman(奧爾特曼)太會玩,讓網友評論回復Prompt(大語言模型中的提示詞),他選一些用Sora生成視頻。截至發稿,奧爾特曼連發多條根據網友提示詞生成的視頻,包括不同動物在海上進行自行車比賽、發佈自制面疙瘩烹飪教學視頻的祖母、兩隻金毛犬在山頂做播客、日落時分火星上進行的一場無人機競賽等。但這些視頻時長為9秒至17秒不等。








技術層面,Sora采用擴散模型(diffusion probabilistic models)技術,基於Transformer架構,但為解決Transformer架構核心組件註意力機制的長文本、高分辨率圖像處理等問題,擴散模型用可擴展性更強的狀態空間模型(SSM)主幹替代傳統架構中的註意力機制,可以使用更少的算力,生成高分辨率圖像。此前Midjourney與Stable Diffusion的圖像與視頻生成器同樣基於擴散模型。

同時,Sora也存在一定的技術不成熟之處。OpenAI表示,Sora可能難以準確模擬復雜場景的物理原理,可能無法理解因果關系,可能混淆提示的空間細節,可能難以精確描述隨著時間推移發生的事件,如遵循特定的相機軌跡等。

根據OpenAI關於Sora的技術報告《Video generation models as world simulators》(以下簡稱報告),跟大語言模型一樣,Sora也有湧現的模擬能力。

OpenAI方面在技術報告中表示,並未將Sora單純視作視頻模型,而是將視頻生成模型作為“世界模擬器”,不僅可以在不同設備的原生寬高比直接創建內容,而且展示一些有趣的模擬能力,如3D一致性、長期一致性和對象持久性等。目前Sora能夠生成一分鐘的高保真視頻,OpenAI認為擴展視頻生成模型是構建物理世界通用模擬器的一條有前途的途徑。

報告指出,OpenAI研究在視頻數據上進行大規模訓練的生成模型。具體而言,聯合訓練文本條件擴散模型,該模型可處理不同持續時間、分辨率和長寬比的視頻和圖像。OpenAI利用一種基於時空補丁的視頻和圖像潛在代碼的變壓器架構。最大的模型Sora能夠生成一分鐘的高保真視頻。結果表明,擴展視頻生成模型是構建通用物理世界模擬器的有前途的途徑。

報告重點介紹OpenAI將各類型視覺數據轉化為統一表示的方法,這種方法能夠對生成模型進行大規模訓練,並對Sora的能力與局限進行定性評估。先前的大量研究已經探索使用多種方法對視頻數據進行生成建模,包括循環網絡、生成對抗網絡、自回歸轉換器和擴散模型。這些研究往往隻關註於狹窄類別的視覺數據、較短的視頻或固定大小的視頻。而Sora是一個通用的視覺數據模型,它能夠生成跨越不同時長、縱橫比和分辨率的視頻和圖像,甚至能夠生成長達一分鐘的高清視頻。

OpenAI從大型語言模型中汲取靈感,這些模型通過訓練互聯網規模的數據獲得通用能力。LLM范式的成功在一定程度上得益於令牌的使用,這些令牌巧妙地統一文本的不同模式——代碼、數學和各種自然語言。在這項工作中,OpenAI考慮視覺數據的生成模型如何繼承這些優勢。雖然LLM有文本令牌,但Sora有視覺補丁。之前已經證明,補丁是視覺數據模型的有效表示。補丁是一種高度可擴展且有效的表示,可用於在多種類型的視頻和圖像上訓練生成模型。

Sora支持采樣多種分辨率視頻,包括1920x1080p的寬屏視頻、1080x1920的豎屏視頻以及介於兩者之間的所有分辨率。這使得Sora能夠直接以原生縱橫比為不同的設備創建內容。同時,它還允許在生成全分辨率內容之前,使用相同的模型快速制作較小尺寸的內容原型。


相關推薦

2024-02-18

容的嫌疑。曾為多部漫威影片工作過的概念藝術傢卡拉·奧爾蒂斯(Karla Ortiz)指出,大模型需要海量的訓練數據來進行學習,隱藏數據來源是一種逃避社會責任的行為。而在影視業之前,相對較為不看重視頻內容的廣告業已經

2024-02-16

晨,OpenAI推出其首款文生視頻大模型Sora。該模型能根據提示詞生成長達1分鐘的視頻,或者擴展生成的視頻使其更長,同時視覺質量相當驚艷。相比以往的視頻模型,Sora的亮點非常明顯,不僅對文本理解更深刻,可以準確地呈現

2024-02-16

相機軌跡。即便如此,OpenAI的首個視頻模型發佈後,不少網友驚呼:不少人要丟工作”、整個素材行業可能都會因此衰落”、語言大模型後,OpenAI又要一次加快AI進化”。目前已有一些視覺藝術傢、設計師和電影制作人(以及Open

2024-02-16

到試用資格的人們已經開始想象力橫飛。Sam Altman就轉發網友用Sora制作的“金光燦燦動物園”視頻,玩起自己的“What”梗:他還邀請大傢踴躍提出想用Sora制作視頻的提示詞,團隊馬上為大傢生成,瞬間8千多條回復。網友腦洞大

2024-03-13

為沒有采訪經驗,他們盯著鏡頭,坐姿有些拘束,YouTube 網友評價:OpenAI 的采訪給人的感覺,就像旁邊有個拿著槍的律師。采訪得到最為明確的信息是,Sora 短期內不會向公眾開放。另外,他們也談到 Sora 的原理、優缺點、發展

2024-04-30

。反正媒體們都把 Vidu 比作是 “ Sora 級視頻大模型 ” ,網友們也都在評論區喊話催他們趕緊開放內測。不過這裡面更好奇的是,咱之前壓根兒都沒聽說過 Vidu ,怎麼突然平地一聲雷,搞出這麼大的陣仗?我們也順藤摸瓜找找資

2024-02-21

顯示,中美“兩大 AI 巨頭”分別是 OpenAI 創始人薩姆·奧特曼和賣 AI 課程的清華博士李一舟。圖|OpenAI 創始人薩姆·奧特曼和賣 AI 課程的清華博士李一舟。從2020年元宇宙到2023年的AIGC,再到今年的Sora,總有賣課人利用新技術制

2024-02-19

制作人提供訪問權限。因此模型發佈當天,OpenAICEO薩姆·奧爾特曼(SamAltman)在社OpenAI 聯合創始人兼總裁格雷格·佈羅克曼(Greg Brockman)、CTO 米拉·穆拉蒂(Mira Murati)等人,也在積極為 Sora 宣傳。但伊爾亞的最後一條推文,停

2024-02-17

是 GPT-5,還是機器自我學習自動產生內容,包括 AIGC。奧特曼是個營銷大師,知道怎樣掌握節奏,他們手裡的武器並沒有全拿出來。這樣看來中國跟美國的 AI 差距可能還在加大。第四,大語言模型最牛的是,它不是填空機,而是

2024-02-17

這張圖,至少看起來比坐在美顏前面的女主播們真實……網友們也第n+1次紛紛哀悼起相關賽道的公司們:“OpenAI就是不能停止殺死創業公司。”“天哪,現在起我們要弄清什麼是真的,什麼是假的。”“我的工作沒。”“整個影

2024-02-20

重要技術基礎之一。因為論文的引用也傳出一則謠言,有網友認為謝賽寧是Sora作者之一,目前謝賽寧本人已在朋友圈親自辟謠。根據謝賽寧的透露,Sora是William(Bill)Peebles等人在OpenAI的嘔心瀝血之作,每天基本不睡覺高強度工

2024-03-07

特斯拉CEO馬斯克指責OpenAI和其首席執行官奧爾特曼違背發展人工智能(AI)的初心和方向。在上周馬斯克向美國加利福尼亞州法院提起的針對奧爾特曼和OpenAI的訴訟中,馬斯克指控被告遺忘OpenAI既定使命中的核心部分,即開發有

2024-04-13

OpenAI內亂”之際,正是納德拉坐鎮幕後迅速彈壓試圖趕走奧爾特曼的董事會。(納德拉捧場OpenAI首屆開發者大會)然而,雙方的特殊關系也存在底層的根本性矛盾:OpenAI面向個人、企業的產品,微軟也拿著底層技術向自己的客戶

2024-04-17

示,AI加持的PR實現一句話就能P視頻,用戶隻需輸入文本提示詞,就能添加、改變和刪除物體,增加輔助鏡頭,甚至還能把某個鏡頭延長幾幀。為實現這些AI功能,Adobe不僅在開發自己的視頻模型,還在PR集成第三方視頻模型,其