Sora團隊罕見專訪:短期內不會向公眾開放 目前還不是一個產品


最近,Sora團隊三位負責人露面,接受科技博主@MKBHD約16分鐘的專訪。整個視頻掐頭去尾,再除去想詞和提問的時間,透露的信息並不多,還回避訓練數據之類的敏感問題。

或許因為沒有采訪經驗,他們盯著鏡頭,坐姿有些拘束,YouTube 網友評價:OpenAI 的采訪給人的感覺,就像旁邊有個拿著槍的律師。


采訪得到最為明確的信息是,Sora 短期內不會向公眾開放。

另外,他們也談到 Sora 的原理、優缺點、發展路線、安全問題,以及對創造力的影響。

但無論如何,這都是在外界眾說紛紜和等待 Sora 之時,OpenAI 公開表達態度的一次采訪,值得一看。

Q:科技博主@MKBHD

A:三位 OpenAI 團隊成員

Bill Peebles,OpenAI 研究科學傢,Sora 負責人。

Tim Brooks,OpenAI 研究科學傢,Sora 負責人。

Aditya Ramesh,OpenAI 圖像生成模型 DALL·E 開發者,Sora 負責人。

Q:簡單地解釋一下 Sora 的工作原理?

A:總的來說,Sora 是一個生成模型。

這幾年面世的生成模型很多,包括 GPT 等語言模型,DALL·E 等圖像生成模型,而 Sora 是視頻生成模型,通過大量的視頻數據,學習生成逼真的現實世界和數字世界視頻。

Sora 的工作方式,借鑒類似 DALL·E 的基於擴散的模型,以及類似 GPT 系列的大語言模型,但介於兩者之間,像 DALL·E 那樣被訓練,在架構上更像 GPT 系列。


Q:Sora 是基於什麼訓練的?

A:這個我們不能透露太多,隻能說基於公開可用的數據以及 OpenAI 已經獲得許可的數據。

Sora 在訓練方面有一項創新,能在不同時長、寬高比、分辨率的視頻上訓練。以前訓練圖像或視頻生成模型時,素材的尺寸通常是非常固定的,例如隻有一個分辨率。

但我們將所有寬高比、時間長短、高分辨率、低分辨率的圖像和視頻,全部變成叫作補丁(patch)的小塊,然後根據輸入的大小,在不同數量補丁(patch)的視頻上訓練模型。

這樣一來,我們的模型非常靈活,既能在更廣泛的數據上訓練,也能用於生成不同分辨率和大小的內容。


Sora 可以采樣 1920x1080、1080x1920 以及介於兩者之間的所有視頻.

Q:現階段的 Sora 在創作方面的優點和缺點是什麼?

A:Sora 的逼真度,以及 1 分鐘的時長,都是巨大的進步,但也有些地方還不夠好。

一般來說,手還是一個痛點。


Sora 可能生成六個手指.

另外還有一些物理方面的問題,比如 3D 打印機的例子。


Sora 沒理解 3D 打印機,也沒理解延時攝影.

如果要求提得更加具體,像是隨時間變化的運動和攝像機軌跡,對 Sora 來說也有困難。

(編者註:采訪者 @MKBHD 也在 X 分享他的觀點。

1.Sora 往往無法處理好步行等動作,雙腿經常交叉並相互融合。

2.Sora 生成的商品與現實生活不完全相符,汽車、相機等無法識別為特定型號。

3.Sora 的燈光和陰影效果有時候很自然。

4.Sora可以很寫實,體現光線和反射,甚至特寫和紋理,也可以要求 Sora 生成具體的拍攝風格,比如 35 毫米膠片,或者背景模糊的數碼單反相機,體現對焦的效果。)

Q:但是這些視頻都沒有聲音,加入聲音很難嗎,你們計劃什麼時候在 AI 生成的視頻裡加入 AI 生成的聲音?

A:很難給出一個確切的時間,初代的 Sora 就是一個視頻生成模型,我們的重心在於改進視頻生成的能力。

在 Sora 之前,很多 AI 生成的視頻,隻有 4 秒鐘,幀率很低,質量不是很好,目前來講,視頻生成仍然是我們努力的主要方向。

當然,加入其他類型的內容會使視頻更加沉浸,這也是我們正在考慮的事情。

有人用 ElevenLabs 等音頻工具和剪輯工具,讓 Sora 視頻更有電影感.

Q:你們怎麼判斷 Sora 到達一個臨界點,你們能夠掌控它,知道怎麼改進它,也準備好把它分享出來?

A:Sora 還沒有準備好。

我們以博客文章形式發佈 Sora(並提供部分訪問權限),就是為獲得反饋,解它對人類有什麼用,還需要做哪些工作保證安全,我們也在聽取藝術傢的意見,看 Sora 怎麼在工作流發光發熱,從而指引我們的研究路線。

但 Sora 目前不是一個產品,在 ChatGPT 或者其他地方都不可用,我們甚至還沒有將其轉化為產品的時間表,現在就是一個獲取反饋的階段。

我們肯定會改進它,但應該如何改進它,還是一個等待解答的、開放的問題。


Q:目前你們聽到什麼有趣的反饋?

A:我們收到一個重要的反饋,人們希望能更細節地控制 Sora,不想隻是借助一個較短的提示詞,而是更好地控制生成的內容,這很有趣,也會是我們研究的一個方向。

Q:未來有沒有這樣的可能,Sora 生成一個與普通視頻無法區分的視頻,就像 DALL·E 制作逼真的圖片?

A:這確實是可能的,當然,當我們快要接近時,必須小心謹慎,確保相關的功能不被用來傳播虛假信息。

現在人們刷社交媒體時,已經在擔心看到的視頻是真的還是假的,是否來自權威的信源。


Q:Sora 生成的視頻在底部角落有一個水印,但這樣的水印可以被裁掉,你們是否考慮其他方法,簡單地識別 AI 生成的視頻?

A:是的,對於 DALL·E 3,我們訓練可以識別圖像是否由模型生成的溯源分類器(provenance classifier),我們也將讓這項技術適用於 Sora 生成的視頻。不過,這還不是一個全面的解決方案,隻是第一步而已。

(編者註:DALL·E 3 官網顯示,“溯源分類器”還在內測,OpenAI 稱,如果圖片從未修改,判斷是否由 DALL·E 生成的準確率超過 99%,如果經過裁剪、壓縮、疊加文本或圖像等修改,準確率仍在 95% 以上。)

Q:這是否有點像元數據或者嵌入式的標志?

A:C2PA(Adobe、微軟等發起的技術協議,在媒體文件中嵌入元數據,驗證其來源和修改歷史)是這樣的。但我們訓練的分類器可以在任何圖像或視頻上運行,並判斷某個內容是否由我們的模型之一生成。


C2PA 的圖標“CR”,鼠標懸停時會出現詳細信息.

Q:Sora 官宣後,有人說這太酷、太神奇,也有人覺得害怕,工作岌岌可危。對於大眾的這些反應,你們又有什麼反應?

A:焦慮肯定是存在的。

關於接下來會發生什麼,我們的使命是確保這項技術安全地部署,並負起相關的責任。

同時,也有很多新的機會。例如,如果一個人有制作電影的想法,但拿到投資真正地制作電影很難,因為制作公司必須衡量預算和風險,而 AI 可以極大地降低從產生創意到完成視頻的成本,這就很酷。

Q:我現在用 DALL·E 頭腦風暴、制作視頻縮略圖,Sora 應該也有許多類似的工具化用途。但 Sora 還處於測試階段,它會不會盡快向公眾開放?

A:不會很快。


Sora 提示詞:一隻中等體型、看起來很友好的狗走過工業停車場。環境多霧、多雲。采用 35mm 膠片拍攝,色彩鮮艷.

Q:相比照片,視頻有時間、物理、反射、聲音等更多的維度和變量。在更遠的未來,當 Sora 制作出有聲音的、完美寫實的五分鐘 YouTube 視頻時,AI 生成媒體的下一個發展方向會是什麼?

A:其實更讓我們興奮的是,AI 工具的使用,如何促進創造全新的內容。

我們往往很容易想象,AI 工具如何被用來創造現有的東西,但當新工具到最有創意的人手中,我們才能知道他們如何使用工具,創造的事物會是什麼樣子,或許是當前不可能的、想象不到的、全新的體驗。

通過制作新的工具,讓真正有創造力的人推動創意的邊界,是非常激動人心的,也是我們一直以來的動力。

Q:讓 Sora 更有創造力的方式,是通過更好的提示詞嗎?

A:Sora 還有其他特別酷的提示方式,而不僅僅是基於文本的提示。

我們發佈的 Sora 技術報告中有一個示例,展示兩個輸入視頻如何融合,左邊的視頻是無人機穿過鬥獸場,右邊的視頻是蝴蝶在水下的珊瑚礁遊泳,而融合的視頻是,其中的一個過渡時刻,鬥獸場開始腐爛,部分埋入水下被珊瑚礁覆蓋,無人機變成蝴蝶。

這種生成視頻,與使用舊技術制作的內容相比,確實給人眼前一亮的感覺。

所以,我們對於創作這類事物的興奮超出提示詞的范疇,人們可以用像 Sora 這樣的技術生成新的體驗。

某種程度上可以說,我們將“建模現實”視為“超越現實”的第一步。


Q:這很有趣,Sora 模擬現實的能力越強,我們也能夠更快地在其基礎上構建,將它作為一個工具,解鎖新的創造可能。關於 Sora 和 OpenAI,你們還有什麼想分享的嗎?

A:讓我們興奮的另一件事是,如何讓 AI 從視頻數據中學習,發揮更多的作用,而不僅僅是創作視頻。

在我們生活的世界,觀察事物就像觀看視頻,很多信息不能用文本表達,雖然像 GPT 這樣的模型非常聰明,對世界已經解很多,但如果它們無法像我們一樣以視覺方式看待世界,就會缺失一些信息。

所以我們希望 Sora 和未來在 Sora 基礎上構建的其他 AI 模型,從關於世界的視覺數據中學習,更好地理解我們生活的世界和其中的事物,然後更好地幫助人類。


相關推薦

2024-02-20

問題一個比一個難解決,也就意味著Sora們至少在短時間內不會向公眾開放。從某種角度來看,這或許對於視頻制作者是一個好消息,至少有更多的緩沖時間,來思考如何應對接下來Sora們帶來的沖擊。無論如何,Sora們向公眾開放

2024-02-18

個不同的視角!”皮佈爾斯在推文中稱。目前,OpenAI尚未向公眾開放Sora。OpenAI稱,該模型正在接受測試,隻分享給一批精選的研究人員和學者。他們將研究Sora,以尋找該模型被濫用的風險。

2023-02-07

字確定為文心一言,英文名ERNIEBot,三月份完成內測,面向公眾開放。”據悉,目前文心一言已經在做上線前的沖刺。去年9月,百度CEO李彥宏判斷人工智能發展在“技術層面和商業應用層面,都有方向性改變”。據推測,百度那

2022-07-28

自今年2月開始,Google啟動對Gmail的界面調整,而今天該公司向所有人開放這種全新的體驗。在整體交互體驗上更深度地整合Meet、Chat和Spaces等服務,並融入Google的MaterialDesign3設計元素。現在當你登錄到 Gmail 之後,就能感受到這些

2024-02-19

目前,視頻生成器正在一組產品測試人員中使用,但尚未向公眾開放,OpenAI 在周四的一份聲明中表示。專傢表示,這些產品有望改進和簡化視頻敘事,但也可能加劇互聯網不實信息,增強政府宣傳,使網絡上已經模糊的真假內

2024-02-10

更是充滿很多提效空間。值得註意的是,Google的人工智能團隊是 Transformer 架構的提出者,而在 2023 年,人工智能的最大風頭,卻更多地被微軟和 OpenAI 搶走。2023 年,Google在人工智能方面也動作頻繁,但很難說受到外界的多少認

2024-02-07

)的開源去中心化替代平臺,現已正式結束封閉測試期,向公眾開放註冊。在私人測試階段,該平臺已擁有 300 多萬用戶,可能會有大量新用戶湧入。該平臺最初是在傑克-多西(Jack Dorsey)指導下在Twitter(Twitter)內部開展的一

2024-03-02

定於2024年7月31日召開案件管理會議,看來這場抓馬大戲不會很快收場。訴訟文件截圖訴訟文件:https://www.courthousenews.com/wp-content/uploads/2024/02/musk-v-altman-openai-complaint-sf.pdf01.五大原因控訴OpenAI騙錢騙人騙技術?為什麼要起訴OpenAI?

2022-09-20

該產品將解決什麼問題,導致融資四處碰壁。當時大量的團隊成員離職、公司財務陷入困境,給Dylan Field結結實實上一課,也讓他靜下心來重新梳理Figma的產品邏輯,找到Adobe這樣的對標競品,並從頭開始軟件設計,讓Figma逐漸走

2024-03-14

候向公眾發佈,同時還會添加語音功能;此外在發佈前,團隊將對其進行優化,以降低計算資源消耗。以下為翻譯全文:某個清晨醒來時,你是否曾幻想過一頭公牛在精致的瓷器店中悠然自得地行走的場景?要實現這一奇幻景象

2022-09-18

院部分修復工地將向公眾開放。人們可以近距離觀看修復團隊的工作進展,解修復計劃,還能與修復團隊中各領域的專傢面對面溝通和交流。巴黎聖母院位於巴黎市中心塞納河畔,始建於12世紀,是法國最具代表性的古跡之一。2

2024-03-09

帶的一小部分。生產力工具的革新,未來或許能讓更小的團隊以更低的成本,制作原本需要成熟的電影產業鏈花費數億美元的好萊塢級電影,這會給影視內容帶來新的生產方式、體驗方式甚至商業模式。幾百年才走到今天的電影

2024-02-20

信息安全已經讓政府筋疲力盡。Sora固然值得期待,但在短期內,人們或許很難看到其在商業上的大爆發。

2024-07-25

體報道,賽可智能無人駕駛出租車(Robotaxi)預計將在8月向公眾開放。此前,該公司在世界人工智能大會上獲得上海市無駕駛人智能網聯汽車示范應用許可。同時,賽可智能還計劃在8月投放20輛L3級別自動駕駛出租車,服務於臨