OpenAI展示新音頻工具 可朗讀文本並模仿聲音


OpenAI公佈一項功能的早期測試結果,該功能可用令人信服的人聲朗讀文字。這彰顯人工智能的一個新領域,並引發關於深度偽造的擔憂。該公司分享名為“語音引擎”(VoiceEngine)的文本轉語音模型小規模試用的早期演示和用例,據發言人介紹,目前約有10傢開發商可使用該模型。OpenAI在3月早些時候向記者介紹這一功能,但決定暫不大規模發佈。

hero-image.webp

OpenAI的發言人說該公司在收到政策制定者、行業專傢、教育工作者和創意人士等利益相關方的反饋後決定縮減發佈規模。據早前的新聞發佈會介紹,該公司原本計劃通過申請流程向多達100傢開發商發佈該工具。

其他AI技術已經在某些情境下被用來偽造聲音。今年1月,一通自稱喬·拜登(Joe Biden)總統打來的以假亂真的電話呼籲新罕佈什爾州居民不要在初選中投票,這一事件在全球關鍵選舉前加劇對AI的恐懼。

與OpenAI過去生成音頻的功能不同,語音引擎可以創建聽起來像具體個人的聲音,並完整呈現特有的語調和語氣。該軟件隻需要一段15秒的錄音,即可重現一個人的聲音。

“隻要音頻設置得當,基本就能得出人類水準的聲音。”OpenAI產品負責人傑夫·哈裡斯(Jeff Harris)說,“這種技術質量非常不起。”但哈裡斯也表示,“準確模仿人類語音的能力顯然存在很多安全上的不確定性。”

非營利性醫療系統Lifespan旗下的Norman Prince Neurosciences Institute是OpenAI目前的開發合作夥伴之一,該機構正在利用此項技術幫助患者恢復聲音。例如,據OpenAI的博客文章,該工具被用於恢復一位因腦瘤失去清晰說話能力的年輕患者的聲音,方法是復制她此前為一個學校項目錄制的發言。

OpenAI的自定義語音模型還可將生成的音頻翻譯成不同語言。這對於音頻行業公司非常有用,比如Spotify Technology SA。Spotify已經在自己的試點計劃中利用該技術來翻譯萊克斯·弗裡德曼(Lex Fridman)等熱門主持人的播客節目。OpenAI還宣傳該技術的其他有益應用,例如為兒童教育內容創建更多樣化的聲音。

在測試計劃中,OpenAI要求合作夥伴同意其使用政策,即在使用原始聲音前征得聲音主人的同意,並告知聽眾他們聽到的是AI生成的聲音。該公司還加入聽不見的音頻水印,以判斷哪些音頻由其工具創建。

OpenAI表示在決定是否大范圍發佈該功能前,正在征求外部專傢的反饋。該公司在博文中表示:“讓全球人民解這項技術的發展方向至關重要,不論我們最終是否親自廣泛部署它。”

OpenAI還寫道,希望其軟件的試用能“激發增強社會韌性的需求”,以應對更先進的AI技術帶來的挑戰。例如,該公司呼籲銀行逐步停止將語音身份驗證作為訪問銀行賬戶和敏感信息的安全措施。它還尋求開展公眾教育,幫助大傢解欺騙性的AI內容,並開發更多技術來檢測音頻內容是否由AI生成。


相關推薦

2024-03-30

當地時間周五(3月29日),美國人工智能研究公司OpenAI在官網首次分享名為“VoiceEngine”(語音引擎)的預覽。據介紹,通過輸入文本和15秒音頻樣本,VoiceEngine便可以生成一個與音頻中說話者非常相似的自然語音。新聞稿強調,

2023-02-18

利解釋說:"根據語音模型,提供與收到的信息相應的音頻輸出。"收到信息的iPhone可以建立一個人的聲音檔案,並在閱讀信息和所有來自同一發件人的新信件時模擬它。有人甚至可以在發送第一條信息之前發送他們的聲音

2023-11-07

OpenAI在其首次開發者日上推出一系列新的API。DALL-E3是OpenAI的文本到圖像模型,在首次應用於ChatGPT和BingChat之後,現在可以通過API使用。OpenAI表示,與前一版本的DALL-E(如DALL-E2)類似,API包含內置內容節制功能,有助於防止濫用

2023-01-11

值得一提的是,VALL·E訓練用的數據集不算特別大。相比OpenAI的Whisper用68萬小時的音頻訓練,在隻用7000多名演講者、6萬小時訓練的情況下,VALL·E就在語音合成相似度上超過經過預訓練的語音合成模型YourTTS。而且,YourTTS在訓練時

2023-05-17

”,用戶將被提示跟隨一組隨機的文本提示朗讀15分鐘的音頻,在iPhone或iPad上創建一個聽起來像他們自己的聲音。然後,這個語音功能與現場語音集成,所以用戶可以在FaceTime通話和面對面交談中使用他們的個人語音。蘋果的宣

2023-11-17

交互式對話。工具的內容生成工作流程包括文本分析、TTS音頻合成和TTS化身視頻合成,生成與聲音同步的嘴唇動畫。除提供即用型的預構建化身,Deepfakes Creator還提供可定制化的化身選項。用戶可以通過上傳的視頻錄像進行訓練

2023-09-26

息,據外媒報道,當地時間周一,美國人工智能研究公司OpenAI宣佈,其AI聊天機器人工具ChatGPT現在可以“看、聽、說”,這暗指這款廣受歡迎的聊天機器人可以同時接收圖像和語音輸入,並通過語音對話進行回復。ChatGPT是OpenAI

2024-03-23

OpenAI申請商標VoiceEngine,暗示著OpenAI可能即將推出圍繞語音引擎開發的產品或者服務,很有可能是類似Siri那樣的個人助理產品。OpenAI正在申請一個新商標VoiceEngine,商標的覆蓋范圍主要是圍繞語音識別、語音合成和語音生成幾個

2022-08-04

USound是一傢為可聽戴式設備(Hearable)和可穿戴式設備(Wearable)開發和供應微機電系統(MEMS)揚聲器的供應商。該公司近日宣佈一款新的音頻模組,增強真無線耳機(TWS)和輔聽耳機(OTChearingaids)的性能。該音頻模組采用物理交

2022-06-23

能的通用人工智能是不同的,不能將二者混淆,DeepMind和OpenAI追求的正是通用人工智能。在會議上亞馬遜還演示瞭新功能。在一段視頻中,一位孩子問Alexa能不能用奶奶的聲音讀完《綠野仙蹤》,Alexa確認指令,修改聲音,然後以

2024-04-01

快科技3月31日消息,據媒體報道,OpenAI公司最近推出一項革命性的聲音克隆技術Voice Engine”。據悉,Voice Engine通過文本輸入和15秒的音頻樣本,便能生成與原始說話者聲音極為相似、情感豐富且自然逼真的語音。這一技術的研發

2024-05-11

和電影將帶給你身臨其境的聽覺體驗,讓你感受到電視上展示的虛擬環境就在身邊。現在,一項新的代碼變更表明,Google正在努力將空間音頻引入 ChromeOS,讓 Chromebook 用戶獲得身臨其境的聽覺體驗。據報道,Google正在調整 Chromebo

2022-06-24

,Alexa的首席科學傢Rohit Prasad也在周三的公司演示中充分展示瞭數字助理的人性化,演示瞭Alexa冒充一位祖母閱讀《綠野仙蹤》摘錄的畫面。他表示,同理心和情感等人類特征是與人建立信任的關鍵,“在疫情持續的這段時間裡

2023-11-16

ogleDeepMind的人工智能Lyria模型創建的音頻(例如使用YouTube新音頻生成功能創建的音軌)將帶有SynthID水印,以便人們在事後識別其人工智能生成的來源。DeepMind 在一篇博文中說,這種水印人耳無法察覺,"也不會影響聽覺體驗&q