VALL-E：微軟全新文字轉語音模型可以在三秒鐘內復制任何人的聲音

2023-01-10 發表於業界精選

自從第一個文本到語音（TTS）模型發佈以來，研究人員一直在尋找讓計算機系統產生語音的方法，微軟的最新模型VALL-E是在這方面的一個重要進步。VALL-E是一個基於轉換器的TTS模型，隻需聽到三秒鐘的聲音樣本就能生成任何聲音的語音。這比以前的模型有很大的改進，以前的模型需要更長的訓練時間才能生成新的聲音。

對於計算機行業來說，VALL-E是一項驚人的技術壯舉，有可能改變我們與數字媒體互動的方式。語音的音調、魅力和風格都在生成的語音中保持不變，這是在使TTS系統聽起來更自然方面邁出的重要一步。

微軟會不會基於這項技術有更多運用目前還不清楚，然而，微軟已經發佈該模型的幾個實例，很明顯，這是TTS技術的一個重大進步。

您可以在這裡收聽范例：

https://mpost.io/vall-e-microsofts-new-zero-shot-text-to-speech-model-can-duplicate-everyones-voice-in-three-seconds/

相關推薦

騙徒利用人工智能生成的語音來從事電話與網絡詐騙

2023-03-07

的聲音。這種技術的一個例子是微軟公司在1月份宣佈的Vall-E工具。它建立在Meta公司2022年10月宣佈的一項名為EnCodec的技術基礎上，通過分析一個人的聲音，將信息分解為各個組成部分，並利用其訓練來合成該聲音在說不同短語時

3秒復制任何人的嗓音微軟音頻版DALL·E連環境背景音也能模仿

2023-01-11

果——語音合成模型VALL·E，隻需3秒語音，就能隨意復制任何人的聲音。它脫胎於DALL·E，但專攻音頻領域，語音合成效果在網上放出後火：有網友表示，要是將VALL·E和ChatGPT結合起來，效果簡直爆炸：看來與GPT-4在Zoom裡聊天的日

OpenAI展示新音頻工具可朗讀文本並模仿聲音

2024-04-01

項功能的早期測試結果，該功能可用令人信服的人聲朗讀文字。這彰顯人工智能的一個新領域，並引發關於深度偽造的擔憂。該公司分享名為“語音引擎”（VoiceEngine）的文本轉語音模型小規模試用的早期演示和用例，據發言人

ChatGPT重磅更新：新增語音和圖像功能可以看、聽、說

2023-09-26

言推理能力應用於各種圖像，如照片、屏幕截圖以及包含文字和圖像的文檔。據悉，GPT-4是OpenAI在今年3月14日推出的最新一代大型語言模型。它是一個多模態大型語言模型，支持圖像和文本輸入，以文本形式輸出；擴寫能力增強

蘋果申請專利可以利用iMessages模仿發件人的聲音

2023-02-18

他創建可聽信息方法的改進，如發送錄音或使用Siri說出文字。這項專利名為&quot;文本信息的個性化聲音&quot;。該專利於2022年10月25日提交，描述一種提供給第二臺電子設備的語音模型。"在一些例子中，從第二臺

全國首例“AI聲音侵權案”宣判：獲賠25萬元

2024-04-24

聲音來自被告一北京某智能科技公司運營的平臺中的文本轉語音產品。原告曾為被告二北京某文化傳媒公司錄制錄音制品，而被告二將這些錄音制品的音頻提供給被告三某軟件公司，允許其使用、復制、修改數據用於其產品和服

Google升級Speech Service引擎：67種語言421種聲音更清晰更自然

2022-09-30

清晰度之外，Android應用在調用該服務的時候能夠讓文本轉語音聽起來更加自然。在Android開發者博文中，Google還放出升級前後兩者之間文本轉語音對比。國外科技媒體 The Verge 坦率地表示，雖然聲音聽起來更加得清晰，但是更加

OpenAI可能會推出Jarvis一樣的個人助理新商標Voice Engine信息匯總

2024-03-23

Sora演示中（OpenAI最強的視頻生成大模型： OpenAI發佈全新文本生成視頻大模型Sora，可以生成無比逼真的最長60秒的視頻，且生成的視頻尺寸可以任意指定），所有的視頻都沒有聲音。OpenAI官方說目前他們還沒有實現為生成的

最高法披露AI生成他人聲音侵權案例：配音演員獲賠25萬元

2024-10-10

審理後認定，軟件公司僅使用殷某的聲音開發涉案的文本轉語音產品，該AI合成的聲音與殷某自然的音色、語調、發音風格高度一致，足以使得普通人將其與殷某本人聯系起來，識別出殷某的身份。因此，殷某的聲音權益保護范

Peech：一款可能真正不錯的文本轉語音應用

2022-07-26

學習模型，”Poznyak告訴TechCrunch。他提到來自AWS、Google和微軟的模型並指出他們的一些模型是內部設計的。隻要每月支付約3美元用戶就可以無限制地使用Peech應用並可以根據自己的需要上傳盡可能多的word文檔、PDF或文章鏈接。另

Windows 11 2022首次大更新解讀：四大創新、Android App終於來

2022-09-21

9月21日，微軟正式發佈Windows112022更新，這也是Windows11發佈以來的首個重大更新，同步向190多個國傢和地區的用戶全面推送。微軟表示，去年推出的Windows11，讓PC變得更加現代化，尤其是在系統底層增加安全特性，而微軟每天都會

完全聽不出來不是人！ChatGPT語音模型實測：語氣、斷句超真實

2023-09-29

快科技9月29日消息，ChatGPT在25日正式推出全新版本，現在可以看、聽、說”。新的版本支持語音進行操作和溝通，通過新型文本轉語音模型和語音識別系統實現，允許用戶進行語音對話，並且提供5種不同的語音選擇，iOS和安卓AP

微軟和OpenAI稱多國黑客正利用ChatGPT改進網絡攻擊

2024-02-15

是一個例子，三秒鐘的語音樣本就能訓練出一個聽起來像任何人的模型，即使是像語音郵件問候語這樣無害的東西，也可以用來獲得足夠的樣本。"微軟的解決方案是利用人工智能來應對人工智能攻擊。"人工智能可以幫助

ChatGPT又變強 OpenAI會變成下一個蘋果嗎？

2023-11-07

開發者分成，不過具體的分配方案還尚未公開。關於錢和微軟在現場的Assistants API演示過程中，OpenAI工作人員開放一個現場抽獎，第一波抽獎是隨機選5個到場工程師每人發500美元的開發者額度。第二波則直接給到場的900多名軟件

熱門推薦