OpenAI展示語音生成“武器庫”:太強大以至於無法推廣


當地時間周五(3月29日),美國人工智能研究公司OpenAI在官網首次分享名為“VoiceEngine”(語音引擎)的預覽。據介紹,通過輸入文本和15秒音頻樣本,VoiceEngine便可以生成一個與音頻中說話者非常相似的自然語音。新聞稿強調,生成的自然語音具有豐富的情感和逼真的聲音。


OpenAI稱,公司在2022年底就啟動Voice Engine的研發工作,並將它用作一些其他功能的預設語音。由於合成語音可能會被濫用,公司隻在小范圍內與開發人員分享該模型,未來可能不會廣泛推出這一功能。

新聞稿寫道,兒童教育技術公司Age of Learning正在使用這個模型來生成一些預先編寫好的內容,並且還結合GPT-4 創建實時的響應來與學生互動。

在案例中,OpenAI放出一段英語男聲和西班牙語女聲的樣本音頻,並用兩段音頻各生成講解知識的語音。


另外,數字人視頻生成初創公司HeyGen也采用這項技術。HeyGen可以根據內容創建定制的數字人化身,而Voice Engine可以將樣本的聲音轉換成多種其他語言,來幫助產品營銷到銷售演示。

新聞稿提到,在轉換語言時,Voice Engine會保留原始說話者的母語口音,例如樣本中的人使用的是法語,那麼生成的英語將帶有法國口音。本周早些時候,有消息稱HeyGen正在進行新一輪融資,投前估值達到4.4億美元。

除此以外,OpenAI還展示生成較小語系和孤立語系聲音的能力,以幫助落後地區的社區衛生工作者;同時還與神經科學研究所探索AI在臨床環境中的應用,比如幫助語言障礙者等用途。

“太強大導致無法推廣”

OpenAI寫道,“我們認識到,生成聲音的功能存在嚴重風險,這一點在大選年尤為突出。我們正在與來自政府、媒體、娛樂、教育等領域的國際合作夥伴合作,以確保我們在建設過程中吸收他們的反饋。 ”

OpenAI產品負責人Jeff Harris告訴媒體,“如果你能正確地設置音頻,基本上就能生成人類口徑的聲音,這是一種相當令人印象深刻的技術。”但Harris提到,準確模仿人類語音的能力確實存在安全隱患。

今年1月,美國就出現“AI拜登”事件,由AI生成的“假拜登”在電話中用逼真的聲音鼓勵可能支持民主黨的5000位選民在新罕佈什爾州初選中不要投票。本月早些時候,拜登呼籲國會通過立法來監管AI,包括禁止“AI語音模仿”等。

在測試計劃中,OpenAI要求其合作夥伴遵守其制定的使用政策:在使用語音樣本之前要征得聲音主人的同意,並明確告訴聽眾聲音是AI生成的。該公司還在安裝一種聽不見的音頻水印,以區分音頻是否是由其工具創建的。

OpenAI寫道,“無論我們最終是否會廣泛部署這項技術,讓全球各地的人們解這個發展方向都是非常重要的。”


相關推薦

2024-03-14

3月14日消息,美國當地時間周三,人工智能初創公司OpenAI的首席技術官米拉·穆拉蒂(MiraMurati)接受媒體記者專訪。在采訪中,她談到該公司最新文本轉視頻工具Sora,這款產品預計將於今年晚些時候向公眾發佈,同時還會添加

2024-03-03

要。”即使十年造車努力付諸東流,但面對ThinkDifferent的OpenAI們,蘋果終也大夢初醒手起刀落,決定全面加入AI戰場。世人都謂蘋果全面轉向AI姍姍來遲,但蘋果隻是“起大早趕晚集”。從喬佈斯古早時期在雅達利的《打磚塊》遊

2024-03-23

OpenAI申請商標VoiceEngine,暗示著OpenAI可能即將推出圍繞語音引擎開發的產品或者服務,很有可能是類似Siri那樣的個人助理產品。OpenAI正在申請一個新商標VoiceEngine,商標的覆蓋范圍主要是圍繞語音識別、語音合成和語音生成幾個

2023-11-24

OpenAI宮鬥大戲剛剛落幕,馬上又掀起另一場軒然大波!路透社曝光,在奧特曼被解雇之前,幾位研究人員給董事會寫的警告信可能是整個事件導火索:內部名為Q*(發音為Q-Star)的下一代AI模型,過於強大和先進,可能會威脅人

2024-03-01

藏的實力有望在關鍵時刻發揮作用。特別值得註意的是,OpenAI的競爭對手Anthropic獲得亞馬遜AWS的重大投資,此舉同樣備受矚目。作為協議的一部分,Anthropic將在亞馬遜的芯片上運行其下一代模型,即GPT-4或GPT-5的潛在競爭者。這

2024-04-10

就已經碰到訓練語料缺失的瓶頸。據《紐約時報》報道,OpenAI在訓練GPT-4時,就曾遇到英文文本資料缺失的情況。為處理這個問題,OpenAI推出一款名為Whisper語音識別工具,用來轉錄Google旗下視頻平臺Youtube的視頻音頻,生成大量

2024-04-01

OpenAI公佈一項功能的早期測試結果,該功能可用令人信服的人聲朗讀文字。這彰顯人工智能的一個新領域,並引發關於深度偽造的擔憂。該公司分享名為“語音引擎”(VoiceEngine)的文本轉語音模型小規模試用的早期演示和用例

2023-09-29

大的社牛”聊天內容生成,已經完全聽不出它不是人”。OpenAI稱,這項新的語音技術能夠從幾秒鐘的真實語音中制作出逼真的合成語音,為許多有創意和無障礙的應用打開大門。需要註意的是,這些功能也帶來新的風險,比如電

2023-03-16

人工智能研究機構OpenAI3月14日發佈備受期待的文本生成AI模型GPT-4。GPT-4在關鍵方面對其前代GPT-3進行改進,例如提供更符合事實的陳述,並允許開發人員更輕松地規定其風格和行為。它是多模態的模型,可以理解圖像內容。但是

2023-11-14

不知道大夥兒還記得上周OpenAI開發者大會上,奧特曼說的GPTs不。因為不需要會寫代碼,隻要會打字,你就能基於GPT-4,創建並上線各種GPT應用。所以不少人都說,GPTs斷不少AI應用初創公司的生路。本來,說是本月底正式上線的,

2023-03-16

,前蘋果工程師JohnBurkey表示,蘋果語音助手Siri不可能像OpenAI旗下聊天機器人ChatGPT那樣強大。John說,Siri能夠通過從數據庫中提取內容來回答天氣、播放歌曲等簡單的問題或指令,但能理解的請求數量有限,要想豐富內容必須要

2023-11-14

上周,SamAltman在OpenAI首屆開發者大會放“大招”,而馬斯克,OpenAI曾經的聯合創始人,更是連夜發佈他新創辦的AI公司xAI的首款產品Grok——一款對標ChatGPT的聊天機器人。隨著Grok內測版的發佈,馬斯克真正進入生成式AI這條目前

2024-02-16

今日凌晨,OpenAI推出其首款文生視頻大模型Sora。該模型能根據提示詞生成長達1分鐘的視頻,或者擴展生成的視頻使其更長,同時視覺質量相當驚艷。相比以往的視頻模型,Sora的亮點非常明顯,不僅對文本理解更深刻,可以準確

2024-02-20

,從街景到行人,包括小美,在現實中根本不存在。這是OpenAI最新產品Sora制作的演示視頻,而正是這個視頻,讓周鴻禕做出AGI發展將會10倍提速的預言。傳統方式制作這樣一段1分鐘的視頻成本非常高。除需要選址,選演員,提