OpenAI CTO:Sora今年將發佈 會添加語音功能


3月14日消息,美國當地時間周三,人工智能初創公司OpenAI的首席技術官米拉·穆拉蒂(MiraMurati)接受媒體記者專訪。在采訪中,她談到該公司最新文本轉視頻工具Sora,這款產品預計將於今年晚些時候向公眾發佈,同時還會添加語音功能;此外在發佈前,團隊將對其進行優化,以降低計算資源消耗。

以下為翻譯全文:

某個清晨醒來時,你是否曾幻想過一頭公牛在精致的瓷器店中悠然自得地行走的場景?要實現這一奇幻景象,你有三種途徑:

A)聯系當地的動物馴養師以及知名傢居品牌Crate & Barrel;

B)雇請頂尖的好萊塢動畫制作人;

C)使用神奇的AI工具Sora,簡單輸入指令即可。

歡迎進入人工智能的下一個“魔法世界”。在這裡,你的語言能夠化作逼真、流暢且細膩的視頻畫面。


OpenAI計劃在今年晚些時候向大眾推出其文本到視頻的轉換工具Sora。盡管正式發佈尚需時日,但OpenAI已經向我們揭示這款工具的驚人潛力:僅需精心設計的文本指令,便可創造出幾乎足以替代許多視頻制作專業人員的作品。《華爾街日報》專欄作傢喬安娜·斯特恩(Joanna Stern)向該公司提交幾條由她自己編寫的提示,比如一條美人魚和她的螃蟹夥伴評測智能手機,或是一頭公牛在精致的瓷器店內自由漫步。

斯特恩隨後親身體驗Sora的神奇之處,她利用這款工具制作一段模擬對OpenAI首席技術官穆拉蒂進行虛擬視頻采訪的片段,兩人深入剖析這些有趣的問題,並對該技術的潛在問題進行探討。

OpenAI在上個月首次展示用其生成式人工智能工具制作的視頻預覽,整個互聯網為之沸騰。與之前那些斷斷續續、分辨率低下的人工智能視頻技術相比,Sora生成的內容無疑是一場視覺盛宴,堪比高品質的自然紀錄片或大制作電影。

與之前的人工智能技術相似,Sora首先讓我們對其能力感到驚嘆,隨即又擔憂其對社會的影響。面對斯特恩的擔憂,穆拉蒂向她保證,OpenAI在發佈這一強大工具時將采取慎重的步驟。但這並不意味著一切都將無憂無慮。

這些超逼真視頻真的是Sora生成的嗎?

斯特恩對Sora生成的視頻感到深深震撼:從無人機視角拍攝的意大利阿馬爾菲海岸的壯觀景色,到手持自拍桿的柯基犬,再到沖浪板上活潑的動畫水獺,這些畫面無一不展示Sora在創意和細節處理上的強大能力。她進一步挑戰Sora,要求它生成更接近日常生活的場景:“兩名30多歲、棕發的職業女性在一個明亮的演播室裡坐下接受新聞采訪。”

Sora生成的視頻中,兩位女性的嘴唇和頭發動作自然流暢,皮夾克的細節也清晰可見。穆拉蒂透露,這段20秒長、720P分辨率的視頻僅用幾分鐘就完成生成,盡管目前還未加入聲音。但她承諾,OpenAI正在計劃為Sora增添語音功能。

為對比Sora與其他工具的區別,斯特恩也在另一個AI視頻生成器Runway上輸入相同的提示。然而,得到的結果大相徑庭,Runway生成的畫面是兩個模糊、幽靈般的女性形象,它們看起來像是直接從惡夢中走出來的,令人毛骨悚然。

那麼,Sora究竟是如何實現這一神奇轉換的呢?盡管解釋其內部工作原理可能比解釋美人魚的進化還要復雜,但簡單來說,Sora背後的AI模型通過分析大量視頻數據,學會識別和理解各種物體與動作。輸入文本提示後,模型能夠迅速勾勒出整個場景的基本輪廓,並逐幀添加細節。

行業觀察人士和競爭對手,包括Runway的首席執行官,都認為OpenAI的這些顯著成就歸功於其巨大的計算資源和龐大的訓練數據量。但OpenAI最近也面臨著版權侵犯的指控,因未經授權使用大量在線內容訓練其ChatGPT模型。

當被問及OpenAI為訓練Sora使用哪些數據時,穆拉蒂表示:“我們主要使用公開可獲取的數據及已授權數據。”。當被進一步追問這些數據是否包括YouTube、Instagram和Facebook上的視頻時,穆拉蒂表示她並不清楚具體細節,但後來確認,已授權的材料確實包含知名版權圖片網站Shutterstock上的內容。

人工智能模型對普通用戶來說往往是個神秘的黑匣子。我們看到的是輸入和輸出,而中間的處理過程則不得而知。因此,我們可能永遠無法完全理解為何生成的內容展現出某些特定的風格或特征。例如,斯特恩提到的那條美人魚身旁的甲殼類夥伴留著類似《海綿寶寶》中蟹老板的胡須,這是否是模型的創新還是某種偶然?

穆拉蒂還告訴斯特恩,當前Sora生成視頻的成本遠高於該公司的圖像生成器Dall-E。但她承諾,在Sora正式向公眾發佈前,團隊將對其進行優化,以降低計算資源消耗。

如何識別人工智能生成視頻?

在當前的早期階段,人工智能生成的內容中還存在一些明顯的瑕疵。

例如,在Sora生成的采訪視頻中,一位淺發色女子的一隻手似乎多出五根手指。對此,穆拉蒂解釋道:“準確再現手部運動真的很難。”

在另一次測試中,斯特恩期望看到一個機器人從電影制片人手中奪走攝像機的場景。但Sora生成的是一位人類電影制片人突變成機器人,場面顯得突兀且不自然。更有甚者,背景中的黃色出租車也不知怎的變成銀色轎車。穆拉蒂承認模型“在維持連貫性方面表現尚可,但並不完美”。

這引出一個深刻的議題:當這些缺陷得到修正,人工智能生成的視頻愈發逼真時,我們如何區分真實與人工智能生成的視頻?

Sora生成的每個視頻下方都會有一個水印。穆拉蒂解釋說,最終這些視頻還將包含元數據,以標示其生成方式和來源。此外,OpenAI設有一個名為“Sora紅隊”的安全測試小組。該團隊的職責是提供各種提示,探索潛在的漏洞、偏見和其他可能的有害結果。穆拉蒂說:“這就是我們目前還沒有廣泛部署這些系統的原因。我們需要先弄清楚這些問題,然後才能放心地將其推向市場。”

就Sora的提示詞政策而言,穆拉蒂透露,它可能借鑒OpenAI的另一工具Dall-E的做法。例如,為防止濫用和侵犯隱私,用戶將無法使用Sora來生成公眾人物的形象。當斯特恩試圖輸入“在任美國總統的電視新聞畫面”時,Sora拒絕這一請求。

斯特恩也嘗試讓Sora生成“在東歐小鎮上行走的士兵”的視頻,但也遭到拒絕。對於裸露等敏感內容的提示,穆拉蒂表示OpenAI正在與藝術傢和專傢緊密合作,共同探討如何在不阻礙創意表現的同時,設立合理的“護欄和限制”。

將與好萊塢合作

隨技術發展,像Sora這樣的AI工具將變得更強大、更精細。這種進步可能會改變傳統的工作方式,如無人機操作員或插畫傢的角色,引起好萊塢既期待又憂慮的反響。

演員、電影制片人和工作室老板泰勒·佩裡(Tyler Perry)表示,看到Sora的潛力後,他宣佈暫停耗資8億美元的工作室擴建計劃。他認為這項技術能夠削減佈景和外景拍攝的成本,但同時也對電影行業和演員的未來抱有擔憂。

代表好萊塢和全美各地動畫藝術傢的動畫協會主席珍妮特·莫雷諾·金(Jeanette Moreno King)也稱,盡管藝術創作決策仍需人類參與和判斷力,未來卻是充滿不確定性的迷霧。

愛德華·薩奇(EdwardSaatchi)及其人工智能視頻工作室Fable正夢想打造一個AI版Netflix:僅需輸入一段文本提示,便可呈現完整的電視劇集。

對於Sora對視頻制作行業的潛在影響,穆拉蒂重申OpenAI采取的緩步審慎策略。她表示,OpenAI正在與行業內部人士合作,進行早期的測試和反饋征集,希望全球的電影制作者和創作者能加入這一探索過程,共同促進電影產業的發展。

如果將OpenAI比作一開始提到的那頭在瓷器店裡自由漫步的公牛,那麼它目前可能需要小心行事。但最終,它可能不可避免地將帶來一些破壞。


相關推薦

2024-03-16

最近,OpenAICTOMurati接受采訪時,對Sora訓練數據語焉不詳、支支吾吾的表現,已經成全網熱議的話題。畢竟,要是一個處理不好,OpenAI就又要陷入巨額賠償金的訴訟之中。前幾天Murati接受華爾街日報采訪時,被問及Sora訓練數據的

2024-03-23

OpenAI申請商標VoiceEngine,暗示著OpenAI可能即將推出圍繞語音引擎開發的產品或者服務,很有可能是類似Siri那樣的個人助理產品。OpenAI正在申請一個新商標VoiceEngine,商標的覆蓋范圍主要是圍繞語音識別、語音合成和語音生成幾個

2024-03-14

今年2月,OpenAI首次發佈震驚世界的人工智能視頻創作應用程序Sora。人們隻需輸入一些文字提示,就能制作長達60秒的視頻。OpenAI發佈的通過Sora制作視頻的示例給許多人留下深刻印象,包括逼真的視覺效果、攝像機動作等。到目

2024-04-17

型,還在PR集成第三方視頻模型,其中就包括Runway、Pika、OpenAI的Sora等AI視頻賽道最出名的產品。目前的演示來看,Pika主要用在擴展視頻,讓場景過渡更加流暢,Sora以及Runway則主要用於為場景生成輔助鏡頭。目前Adobe已經在其Photo

2024-05-08

OpenAI剛剛發佈博客宣佈該公司加入C2PA內容來源和真實性聯盟的指導委員會,與業內其他公司一起合作為數字內容添加認證標準、可以識別數字內容的來源等。C2PA由軟件公司、相機制造商以及在線平臺等共同創建,主要目的就是

2024-02-19

Sora一夜之間爆火全球。但奇怪的是,OpenAI聯合創始人兼首席科學傢伊爾亞·蘇茨克維(IlyaSutskever)卻在保持沉默,沒有轉發任何一條關於Sora的視頻或推文。Sora目前沒有公開測試權限,僅僅向公司內部負責安全風險評估的紅隊成

2024-05-12

下周開始,矽谷科技巨頭將開啟新一輪的AI大戰。OpenAI、Google、蘋果都將押註AI助手,並發佈一系列重磅更新,你準備好?新一輪AI大戰,即將拉開序幕!下周一,OpenAI將開啟線上直播,官宣GPT-4升級,甚至還有一個超級“AI助手

2023-03-10

爆如今科技界軍備競賽的ChatGPT是在GPT-3.5上改進得來的,OpenAI很早就預告GPT-4將會在今年發佈。最近各傢大廠爭相入局的行動似乎加快這個進程。最新消息是,萬眾期待的 GPT-4 下周就要推出:在 3 月 9 日舉行的一場名為“AI in Focu

2024-02-17

註時事。沒想到一覺醒來,朋友圈突然被一則新聞刷屏:OpenAI發佈文生視頻模型Sora。好傢夥,瞬間給我拉回工作氛圍。人們一直期待GPT-5,但Sora帶來的轟動不亞於GPT-5的發佈。之前大傢還在關註,Google推出的Gemini能否殺死GPT4,

2024-02-16

OpenAI正在推出一種新的視頻生成模型,它的名字叫Sora。這傢人工智能公司稱,Sora"可以根據文字說明創建逼真而富有想象力的場景"。文本到視頻模式允許用戶根據自己編寫的提示創建長達一分鐘的逼真視頻。

2024-05-06

5月6日消息,OpenAI文生視頻工具Sora的早期測試者們似乎可以松口氣。他們並沒有因為這款工具而出現即將被取代的恐慌,反而覺得它讓他們的工作變得更加遊刃有餘。今年2月,人工智能初創公司OpenAI正式推出Sora,這款工具旨在

2024-04-16

一表示,將允許用戶在其旗下的視頻編輯軟件中使用包括OpenAI的Sora在內的第三方生成式人工智能工具。Adobe的PremierePro軟件廣泛應用於電視和電影行業。該公司稱,該項目目前正處於初期階段,並計劃在今年對軟件增添基於人工

2024-05-01

末的 VideoPoet,視頻生成模型進入到加速階段。2024年2月,OpenAI 旗下視頻生成模型 Sora 正式對外發佈。Sora 一名源於日文“空”(そら sora),取自天空之意,以示其無限的創造潛力。與 Runway、Pika、VideoPoet 等“前輩”相比,Sora

2024-02-18

OpenAI首個AI視頻模型Sora橫空出世,再次創造歷史。這個堪稱“世界模型”的技術報告也在今天發佈,不過依然沒有公開具體訓練細節。昨天白天,“現實不存在”開始全網刷屏。“我們這麼快就步入下一個時代?Sora簡直太炸裂