OpenAI Sora問世 通往AGI的又一個ChatGPT時刻


OpenAI的文生視頻模型Sora刷屏。它有多震撼呢?這麼說吧,上一次這麼瘋狂的刷屏可能還是人類第一次見到ChatGPT的時候。以及,Sora之前幾小時Google剛剛推出它最強的LLMGemini1.5,並試圖宣稱自己終於殺死GPT-4,然而,顯然現在沒人關註。

因為看完Sora你可能會發現,OpenAI自己可能要用它先殺死GPT-4。

每個人都可以創造自己的世界

先來看看Sora。


人們一直期待GPT-5,但Sora帶來的轟動不亞於一次GPT-5的發佈。

作為OpenAI 首推的文本轉視頻模型,Sora能夠根據文本指令或靜態圖像生成長達 1分鐘的視頻,其中包含精細復雜的場景、生動的角色表情以及復雜的鏡頭運動。同時也接受現有視頻擴展或填補缺失的幀。

每條提示60秒的視頻長度與Pika Labs的3秒、Meta Emu Video的4秒、和Runway公司Gen-2的18秒相比,妥妥地鐵贏。並且從官方發佈的演示來看,無論從視頻流暢度還是細節表現能力上,Sora的效果都相當驚艷。

比如官推裡這條14秒的東京雪景視頻。

提示詞:Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.

“美麗的,被雪覆蓋的東京正繁忙著。鏡頭穿過繁忙的城市街道,跟隨著幾個享受雪景和在附近攤位購物的人。美麗的櫻花瓣隨風飄落,與雪花一同飛舞。”


穿著時尚的女性漫步在霓虹背景的東京街頭,地面有積水倒影。


對於五官和皮膚的刻畫十分真實,特別是痘印和法令紋,細節讓人驚嘆。


猛獁象自冰川雪原中緩步從來,背後升騰起雪霧。


燭火旁純真頑皮的3D動畫小怪物,光影、表情和毛茸茸的細節滿分:


一名24歲女性的眼部特寫,足以以假亂真。


無人機視角的海浪拍打著Big Sur加瑞角海岸崖壁,落日灑下金色光芒。


窗臺上的花朵開放延時影像:


民眾們上街舞龍,慶祝中國農歷春節。


可愛小貓咪在線安撫起床氣。


夜晚街道跑著的快樂小狗。


兩艘微型海盜船在一杯咖啡裡對峙。


加州淘金時代罕見“歷史影像”流出—— 像嗎?Sora做的。


目前Sora還在測試階段,僅對部分評估人員、視覺藝術傢、設計師和電影制作人們開放訪問權限,拿到試用資格的人們已經開始想象力橫飛。

Sam Altman就轉發網友用Sora制作的“金光燦燦動物園”視頻,玩起自己的“What”梗:


他還邀請大傢踴躍提出想用Sora制作視頻的提示詞,團隊馬上為大傢生成,瞬間8千多條回復。

網友腦洞大開,要看海洋生物的自行車公開賽。


兩隻金毛在山上戴著耳機開播客。


當然也不忘cue一下去向成謎的Ilya,要求生成一個“Ilya眼中的真實世界”。


不過OpenAI也表示,雖然Sora 對自然語言有著深入的理解,能夠準確洞悉提示詞,生成表達豐富的內容,並可以創建多個鏡頭、保持角色和視覺風格的一致性,但仍不可避免地存在一些弱點。

例如,它在準確模擬復雜場景的物理現象方面存在困難,也可能不理解特定的因果關系。比方說“一個人咬一口餅幹後,餅幹上可能並沒有咬痕。”

模型也可能混淆提示的空間細節,像是弄錯左右。或者“在準確體現隨時間發生的事件方面遇到困難,比如遵循特定的攝像機軌跡”。

Sora也使用DALL·E 3的recaptioning技術,該技術涉及為視覺訓練數據生成高度描述性的標題。因此模型能夠更忠實地按照用戶在生成視頻中的文本指令進行操作。

它能夠一次性生成整個視頻,或是擴展已生成的視頻使其變長。通過讓模型一次性預見多幀,解決即使主體暫時離開視線也能保持不變的挑戰性問題。

關於安全性,OpenAI表示正與錯誤信息、仇恨內容和偏見等領域的專傢合作,對模型進行對抗性測試。同時也在開發幫助檢測誤導性內容的工具,識別視頻是否由Sora生成。對於違反使用政策的文本提示,例如暴力、仇恨和侵犯他人知識產權等內容,將拒絕顯示給用戶。

除此以外,為DALL·E 3產品構建的現有安全方法也同樣適用於Sora。

“盡管進行廣泛的研究和測試,我們仍無法預測人們將如何利用我們的技術,也無法預見人們如何濫用它。這就是為什麼我們相信,從真實世界的用例中學習,是隨時間構建越來越安全的AI系統的關鍵組成部分。”

OpenAI對 Sora信心滿滿,認為這為模型理解和模擬真實世界奠定基礎,是“實現AGI的重要裡程碑”。

網友們也第n+1次紛紛哀悼起相關賽道的公司們:

“OpenAI就是不能停止殺死創業公司。”

“天哪,現在起我們要弄清什麼是真的,什麼是假的。”

“我的工作沒。”

“整個影像素材行業被血洗,安息吧。”


能殺死GPT-4的世界模型?這不就是嗎

OpenAI一如既往沒有給出很詳細的技術說明,但一些隻言片語已經足夠讓你浮想聯翩。

其中最吸引我們註意的第一個點,是對數據的處理。

Sora是一個擴散模型(diffusion model),采用類似GPT的Transformer架構。而在解決訓練中文本資料與視頻數據之間的統一方面,OpenAI表示,他們在處理圖像和視頻數據時,把對它們進行分割後得到的最小單元,稱為小塊(patches),也就是對應LLM裡的基本單元tokens。

這是一個很重要的技術細節。把它作為模型處理的基本單元,使得深度學習算法能夠更有效地處理各種視覺數據,涵蓋不同的持續時間、分辨率和寬高比。

從最終的震撼效果看,你很難不得出這樣一個結論:對語言的理解能力,是可以遷移到對更多形態的數據的理解方法上去的。

此前的Dalle-3的效果就被公認很大程度來自OpenAI在GPT上積累的領先N代的語言能力,哪怕是個圖像為輸出的模型,語言能力提升也是至關重要的。而今天的視頻模型,同樣如此。

至於它是如何做到的,有不少行業內的專傢給出相同的猜測:它的訓練數據裡使用遊戲領域最前端的物理引擎Unreal Engine5,簡單粗暴的理解,就是語言能力足夠強大之後,它帶來的泛化能力直接可以學習引擎生成的圖像視頻數據和它體現出的模式,然後還可以直接用學習來的,引擎最能理解的方式給這些利用引擎的強大技術的視覺模型模塊下指令,生成我們看到的逼真強大的對物理世界體現出“理解”的視頻。

基於這個猜測,OpenAI簡短的介紹中的這句話似乎就更加重要:

“Sora 是能夠理解和模擬現實世界的模型的基礎,OpenAI相信這一功能將成為實現AGI的重要裡程碑。”

理解,現實,世界。

這不就是人們總在爭論的那個唯一有可能“幹掉”GPT-4的世界模型。現在,OpenAI搞出來它的雛形,擺在你的面前。

看起來,這個模型學會關於 3D 幾何形狀和一致性的知識,而且並非OpenAI訓練團隊預先設定的,而是完全是通過觀察大量數據自然而然地學會的。負責Sora訓練的OpenAI科學傢Tim Brooks表示,AGI將能夠模擬物理世界,而Sora就是邁向這個方向的關鍵一步。


顯然,在OpenAI眼裡,它不隻是一個“文生視頻模型”,而是更大的東西。

我們如果嘗試進一步給一個暴論,就是:語言是理解一切的基礎,理解視頻後,世界模型才會到來。

可能這才是比今天刷屏感慨“現實不存在”之外,更恐怖的地方。這可能是人類通往AGI的又一個ChatGPT時刻。


相關推薦

2024-02-18

頻的AI模型Sora,隻需文本就能自動生成視頻;繼文本模型ChatGPT和圖片模型Dall-E之後,OpenAI又開始顛覆視頻領域。相比GoogleGemini 1.5 Pro基於數據性能的硬實力優勢,Sora基於視覺美學的驚艷表現,顯然更容易讓人印象深刻,迅速成

2024-02-17

註時事。沒想到一覺醒來,朋友圈突然被一則新聞刷屏:OpenAI發佈文生視頻模型Sora。好傢夥,瞬間給我拉回工作氛圍。人們一直期待GPT-5,但Sora帶來的轟動不亞於GPT-5的發佈。之前大傢還在關註,Google推出的Gemini能否殺死GPT4,

2024-03-21

,大傢再一次把目光聚集到OpenAI。不僅如此,去年亮相的ChatGPT、GPT-4,更是把AI直接帶入到生成式人工智能領域。作為一傢引領科技潮流的機構,大傢自然對其方方面面都產生好奇。在最近的一次采訪中,美國知名播客 Lex Friedman

2024-02-17

一次洗牌文生視頻市場。前一天,OpenAI 宣佈正在嘗試為 ChatGPT 添加更深的內存,以便該工具可以記住更多用戶的聊天記錄。另據報道,Sam Altman 也一直在談判收購一傢芯片制造商,或者以其他方式提高獲取昂貴 AI 芯片的機會。

2024-02-26

型,僅需通過文本即可自動生成視頻,這也是繼文本模型ChatGPT和圖片模型Dall-E之後,又一極具顛覆性的大模型產品。文本生成視頻並非始於Sora。據不完全統計,截至去年年底,全球范圍已湧現包括Runway、Pika、Stable Video Diffusion

2024-02-18

eDeepMind和謝賽寧的論文成果。OpenAI,永遠快別人一步!像ChatGPT成功搶Claude的頭條一樣,這一次,Google核彈級大殺器Gemini1.5才推出沒幾個小時,全世界的目光就被OpenAI的Sora搶去。100萬token的上下文,僅靠一本語法書就學會一門全

2024-03-18

“非盈利組織”的創始宗旨,自己開設xAI公司推出競品與ChatGpt公然打擂臺的行為,但像這次,直接一紙訴狀將OpenAI告上法庭,仍讓不少人大跌眼鏡。因此,3月1日消息剛出,討論尚未完全發酵開來,大多數人都忙著消化訴狀中的

2024-04-09

於哈薩比斯團隊研究的聊天機器人,被視為Google與OpenAI ChatGPT競爭的有力武器。然而,Gemini因錯誤回答用戶問題而遭到公眾嘲諷。據知情人士透露,哈薩比斯在一次團隊會議上強調,他們負責開發Google內部的底層AI技術,而把這

2023-03-15

道德邊界愈發變得不可忽視。OpenAI早期上線的聊天機器人ChatGPT用自動生成的流暢文字獲得大量關註,也讓公眾對其杜撰論文、虛構劇本的能力感到不安。要知道,ChatGPT用的還是一年多前就已經落伍的老一代技術GPT-3。相比之下

2023-11-09

法中的不同級別,截至2023年9月,前沿語言模型如OpenAI的ChatGPT、Google的Bard、Meta的Llama 2在某些任務上(如短篇論文寫作、簡單編碼)表現出能力嫻熟的“中級”性能水平,但在大多數任務上(如數學能力、涉及事實性的任務)仍

2024-05-06

單的方法,我們就會做AGI。這將是昂貴的。”奧特曼反駁ChatGPT是某種“非凡”設備的說法,盡管它取得無數的成就。“你們這麼說很好,但ChatGPT並不是什麼現象級的東西,”他回答說,並稱它“充其量隻是有點尷尬”。這個含

2024-02-18

快科技2月18日消息,日前,打造ChatGPT的人工智能公司OpenAI發佈首個文生視頻模型Sora,用戶通過一句話,就能生成長達1分鐘的高清視頻。在Sora發佈後,OpenAI的估值正在大幅飆升。市場預計,在最新一輪由風投公司Thrive Capital牽頭

2023-03-27

資超過10億美金的金主微軟這幾個big names以外,隨著OpenAI ChatGPT 的影響力波及世界,另一個名字浮出水面:她就是Mira Murati,35 歲的OpenAI CTO。01曾在特斯拉參與Model X 趕上自動駕駛的第一波浪潮讓我們一起猜想下,一名前沿AI公司

2023-11-30

平息的“政變”,其實就是對“自殺”的一次深入思考。ChatGPT上線滿一周年之際,回歸OpenAI的阿爾特曼,重新出任CEO。回到原職位的阿爾特曼,也在迎接公司內外部對AI威脅論的新一波審視。2022年11月中旬的一天,OpenAI的員工接