Sora團隊罕見專訪：短期內不會向公眾開放目前還不是一個產品

2024-03-13 來自 AppSo 發表於業界精選

最近，Sora團隊三位負責人露面，接受科技博主@MKBHD約16分鐘的專訪。整個視頻掐頭去尾，再除去想詞和提問的時間，透露的信息並不多，還回避訓練數據之類的敏感問題。

或許因為沒有采訪經驗，他們盯著鏡頭，坐姿有些拘束，YouTube 網友評價：OpenAI 的采訪給人的感覺，就像旁邊有個拿著槍的律師。

采訪得到最為明確的信息是，Sora 短期內不會向公眾開放。

另外，他們也談到 Sora 的原理、優缺點、發展路線、安全問題，以及對創造力的影響。

但無論如何，這都是在外界眾說紛紜和等待 Sora 之時，OpenAI 公開表達態度的一次采訪，值得一看。

Q：科技博主@MKBHD

A：三位 OpenAI 團隊成員

Bill Peebles，OpenAI 研究科學傢，Sora 負責人。

Tim Brooks，OpenAI 研究科學傢，Sora 負責人。

Aditya Ramesh，OpenAI 圖像生成模型 DALL·E 開發者，Sora 負責人。

Q：簡單地解釋一下 Sora 的工作原理？

A：總的來說，Sora 是一個生成模型。

這幾年面世的生成模型很多，包括 GPT 等語言模型，DALL·E 等圖像生成模型，而 Sora 是視頻生成模型，通過大量的視頻數據，學習生成逼真的現實世界和數字世界視頻。

Sora 的工作方式，借鑒類似 DALL·E 的基於擴散的模型，以及類似 GPT 系列的大語言模型，但介於兩者之間，像 DALL·E 那樣被訓練，在架構上更像 GPT 系列。

Q：Sora 是基於什麼訓練的？

A：這個我們不能透露太多，隻能說基於公開可用的數據以及 OpenAI 已經獲得許可的數據。

Sora 在訓練方面有一項創新，能在不同時長、寬高比、分辨率的視頻上訓練。以前訓練圖像或視頻生成模型時，素材的尺寸通常是非常固定的，例如隻有一個分辨率。

但我們將所有寬高比、時間長短、高分辨率、低分辨率的圖像和視頻，全部變成叫作補丁（patch）的小塊，然後根據輸入的大小，在不同數量補丁（patch）的視頻上訓練模型。

這樣一來，我們的模型非常靈活，既能在更廣泛的數據上訓練，也能用於生成不同分辨率和大小的內容。

Sora 可以采樣 1920x1080、1080x1920 以及介於兩者之間的所有視頻.

Q:現階段的 Sora 在創作方面的優點和缺點是什麼？

A：Sora 的逼真度，以及 1 分鐘的時長，都是巨大的進步，但也有些地方還不夠好。

一般來說，手還是一個痛點。

Sora 可能生成六個手指.

另外還有一些物理方面的問題，比如 3D 打印機的例子。

Sora 沒理解 3D 打印機，也沒理解延時攝影.

如果要求提得更加具體，像是隨時間變化的運動和攝像機軌跡，對 Sora 來說也有困難。

（編者註：采訪者 @MKBHD 也在 X 分享他的觀點。

1.Sora 往往無法處理好步行等動作，雙腿經常交叉並相互融合。

2.Sora 生成的商品與現實生活不完全相符，汽車、相機等無法識別為特定型號。

3.Sora 的燈光和陰影效果有時候很自然。

4.Sora可以很寫實，體現光線和反射，甚至特寫和紋理，也可以要求 Sora 生成具體的拍攝風格，比如 35 毫米膠片，或者背景模糊的數碼單反相機，體現對焦的效果。）

Q：但是這些視頻都沒有聲音，加入聲音很難嗎，你們計劃什麼時候在 AI 生成的視頻裡加入 AI 生成的聲音？

A：很難給出一個確切的時間，初代的 Sora 就是一個視頻生成模型，我們的重心在於改進視頻生成的能力。

在 Sora 之前，很多 AI 生成的視頻，隻有 4 秒鐘，幀率很低，質量不是很好，目前來講，視頻生成仍然是我們努力的主要方向。

當然，加入其他類型的內容會使視頻更加沉浸，這也是我們正在考慮的事情。

有人用 ElevenLabs 等音頻工具和剪輯工具，讓 Sora 視頻更有電影感.

Q：你們怎麼判斷 Sora 到達一個臨界點，你們能夠掌控它，知道怎麼改進它，也準備好把它分享出來？

A：Sora 還沒有準備好。

我們以博客文章形式發佈 Sora（並提供部分訪問權限），就是為獲得反饋，解它對人類有什麼用，還需要做哪些工作保證安全，我們也在聽取藝術傢的意見，看 Sora 怎麼在工作流發光發熱，從而指引我們的研究路線。

但 Sora 目前不是一個產品，在 ChatGPT 或者其他地方都不可用，我們甚至還沒有將其轉化為產品的時間表，現在就是一個獲取反饋的階段。

我們肯定會改進它，但應該如何改進它，還是一個等待解答的、開放的問題。

Q：目前你們聽到什麼有趣的反饋？

A：我們收到一個重要的反饋，人們希望能更細節地控制 Sora，不想隻是借助一個較短的提示詞，而是更好地控制生成的內容，這很有趣，也會是我們研究的一個方向。

Q：未來有沒有這樣的可能，Sora 生成一個與普通視頻無法區分的視頻，就像 DALL·E 制作逼真的圖片？

A：這確實是可能的，當然，當我們快要接近時，必須小心謹慎，確保相關的功能不被用來傳播虛假信息。

現在人們刷社交媒體時，已經在擔心看到的視頻是真的還是假的，是否來自權威的信源。

Q：Sora 生成的視頻在底部角落有一個水印，但這樣的水印可以被裁掉，你們是否考慮其他方法，簡單地識別 AI 生成的視頻？

A：是的，對於 DALL·E 3，我們訓練可以識別圖像是否由模型生成的溯源分類器（provenance classifier），我們也將讓這項技術適用於 Sora 生成的視頻。不過，這還不是一個全面的解決方案，隻是第一步而已。

（編者註：DALL·E 3 官網顯示，“溯源分類器”還在內測，OpenAI 稱，如果圖片從未修改，判斷是否由 DALL·E 生成的準確率超過 99%，如果經過裁剪、壓縮、疊加文本或圖像等修改，準確率仍在 95% 以上。）

Q：這是否有點像元數據或者嵌入式的標志？

A：C2PA（Adobe、微軟等發起的技術協議，在媒體文件中嵌入元數據，驗證其來源和修改歷史）是這樣的。但我們訓練的分類器可以在任何圖像或視頻上運行，並判斷某個內容是否由我們的模型之一生成。

C2PA 的圖標“CR”，鼠標懸停時會出現詳細信息.

Q：Sora 官宣後，有人說這太酷、太神奇，也有人覺得害怕，工作岌岌可危。對於大眾的這些反應，你們又有什麼反應？

A：焦慮肯定是存在的。

關於接下來會發生什麼，我們的使命是確保這項技術安全地部署，並負起相關的責任。

同時，也有很多新的機會。例如，如果一個人有制作電影的想法，但拿到投資真正地制作電影很難，因為制作公司必須衡量預算和風險，而 AI 可以極大地降低從產生創意到完成視頻的成本，這就很酷。

Q：我現在用 DALL·E 頭腦風暴、制作視頻縮略圖，Sora 應該也有許多類似的工具化用途。但 Sora 還處於測試階段，它會不會盡快向公眾開放？

A：不會很快。

Sora 提示詞：一隻中等體型、看起來很友好的狗走過工業停車場。環境多霧、多雲。采用 35mm 膠片拍攝，色彩鮮艷.

Q：相比照片，視頻有時間、物理、反射、聲音等更多的維度和變量。在更遠的未來，當 Sora 制作出有聲音的、完美寫實的五分鐘 YouTube 視頻時，AI 生成媒體的下一個發展方向會是什麼？

A：其實更讓我們興奮的是，AI 工具的使用，如何促進創造全新的內容。

我們往往很容易想象，AI 工具如何被用來創造現有的東西，但當新工具到最有創意的人手中，我們才能知道他們如何使用工具，創造的事物會是什麼樣子，或許是當前不可能的、想象不到的、全新的體驗。

通過制作新的工具，讓真正有創造力的人推動創意的邊界，是非常激動人心的，也是我們一直以來的動力。

Q：讓 Sora 更有創造力的方式，是通過更好的提示詞嗎？

A：Sora 還有其他特別酷的提示方式，而不僅僅是基於文本的提示。

我們發佈的 Sora 技術報告中有一個示例，展示兩個輸入視頻如何融合，左邊的視頻是無人機穿過鬥獸場，右邊的視頻是蝴蝶在水下的珊瑚礁遊泳，而融合的視頻是，其中的一個過渡時刻，鬥獸場開始腐爛，部分埋入水下被珊瑚礁覆蓋，無人機變成蝴蝶。

這種生成視頻，與使用舊技術制作的內容相比，確實給人眼前一亮的感覺。

所以，我們對於創作這類事物的興奮超出提示詞的范疇，人們可以用像 Sora 這樣的技術生成新的體驗。

某種程度上可以說，我們將“建模現實”視為“超越現實”的第一步。

Q：這很有趣，Sora 模擬現實的能力越強，我們也能夠更快地在其基礎上構建，將它作為一個工具，解鎖新的創造可能。關於 Sora 和 OpenAI，你們還有什麼想分享的嗎？

A：讓我們興奮的另一件事是，如何讓 AI 從視頻數據中學習，發揮更多的作用，而不僅僅是創作視頻。

在我們生活的世界，觀察事物就像觀看視頻，很多信息不能用文本表達，雖然像 GPT 這樣的模型非常聰明，對世界已經解很多，但如果它們無法像我們一樣以視覺方式看待世界，就會缺失一些信息。

所以我們希望 Sora 和未來在 Sora 基礎上構建的其他 AI 模型，從關於世界的視覺數據中學習，更好地理解我們生活的世界和其中的事物，然後更好地幫助人類。

Sora團隊罕見專訪：短期內不會向公眾開放目前還不是一個產品

相關推薦

Sora炸裂科技圈：真神還是焦慮制造機？

OpenAI Sora更強大功能曝光：可一次生成多個視頻、拼接展示

百度確認將推出類ChatGPT項目：定名“文心一言” 三月份向公眾開放

[圖]Google向公眾開放新版Gmail：深度整合Meet、Chat等服務

專傢稱：OpenAI 視頻生成器Sora可能會助長虛假宣傳和偏見

谷歌最牛大模型正式開放：免費試用兩個月

Bluesky Social結束邀請制向公眾開放註冊

馬斯克46頁訴狀狀告OpenAI稱自己被騙慘要求賠錢、開源

4年前才值1億的Figma轉身賣200億結果用戶都在喊它快逃？

OpenAI CTO：Sora今年將發佈會添加語音功能

標志性部分開始重建巴黎聖母院有望2024年開放

看到Sora，好萊塢的老板砍掉投資8億美元的新工作室

七天暴漲近2倍 Altman投資的世界幣因OpenAI Sora而受到追捧

免費搭乘！上海無人駕駛出租車預計8月對公眾開放

Sora團隊罕見專訪：短期內不會向公眾開放 目前還不是一個產品

相關推薦

Sora團隊罕見專訪：短期內不會向公眾開放目前還不是一個產品