VALL-E:微軟全新文字轉語音模型可以在三秒鐘內復制任何人的聲音


自從第一個文本到語音(TTS)模型發佈以來,研究人員一直在尋找讓計算機系統產生語音的方法,微軟的最新模型VALL-E是在這方面的一個重要進步。VALL-E是一個基於轉換器的TTS模型,隻需聽到三秒鐘的聲音樣本就能生成任何聲音的語音。這比以前的模型有很大的改進,以前的模型需要更長的訓練時間才能生成新的聲音。

對於計算機行業來說,VALL-E是一項驚人的技術壯舉,有可能改變我們與數字媒體互動的方式。語音的音調、魅力和風格都在生成的語音中保持不變,這是在使TTS系統聽起來更自然方面邁出的重要一步。

微軟會不會基於這項技術有更多運用目前還不清楚,然而,微軟已經發佈該模型的幾個實例,很明顯,這是TTS技術的一個重大進步。

image-75-10.jpg

您可以在這裡收聽范例:

https://mpost.io/vall-e-microsofts-new-zero-shot-text-to-speech-model-can-duplicate-everyones-voice-in-three-seconds/


相關推薦

2023-03-07

的聲音。這種技術的一個例子是微軟公司在1月份宣佈的Vall-E工具。它建立在Meta公司2022年10月宣佈的一項名為EnCodec的技術基礎上,通過分析一個人的聲音,將信息分解為各個組成部分,並利用其訓練來合成該聲音在說不同短語時

2023-01-11

果——語音合成模型VALL·E,隻需3秒語音,就能隨意復制任何人的聲音。它脫胎於DALL·E,但專攻音頻領域,語音合成效果在網上放出後火:有網友表示,要是將VALL·E和ChatGPT結合起來,效果簡直爆炸:看來與GPT-4在Zoom裡聊天的日

2024-04-01

項功能的早期測試結果,該功能可用令人信服的人聲朗讀文字。這彰顯人工智能的一個新領域,並引發關於深度偽造的擔憂。該公司分享名為“語音引擎”(VoiceEngine)的文本轉語音模型小規模試用的早期演示和用例,據發言人

2023-09-26

言推理能力應用於各種圖像,如照片、屏幕截圖以及包含文字和圖像的文檔。據悉,GPT-4是OpenAI在今年3月14日推出的最新一代大型語言模型。它是一個多模態大型語言模型,支持圖像和文本輸入,以文本形式輸出;擴寫能力增強

2023-02-18

他創建可聽信息方法的改進,如發送錄音或使用Siri說出文字。這項專利名為"文本信息的個性化聲音"。該專利於2022年10月25日提交,描述一種提供給第二臺電子設備的語音模型。"在一些例子中,從第二臺

2024-04-24

聲音來自被告一北京某智能科技公司運營的平臺中的文本轉語音產品。原告曾為被告二北京某文化傳媒公司錄制錄音制品,而被告二將這些錄音制品的音頻提供給被告三某軟件公司,允許其使用、復制、修改數據用於其產品和服

2022-09-30

清晰度之外,Android應用在調用該服務的時候能夠讓文本轉語音聽起來更加自然。在Android開發者博文中,Google還放出升級前後兩者之間文本轉語音對比。國外科技媒體 The Verge 坦率地表示,雖然聲音聽起來更加得清晰,但是更加

2024-03-23

Sora演示中(OpenAI最強的視頻生成大模型: OpenAI發佈全新文本生成視頻大模型Sora,可以生成無比逼真的最長60秒的視頻,且生成的視頻尺寸可以任意指定),所有的視頻都沒有聲音。OpenAI官方說目前他們還沒有實現為生成的

2022-07-26

學習模型,”Poznyak告訴TechCrunch。他提到來自AWS、Google和微軟的模型並指出他們的一些模型是內部設計的。隻要每月支付約3美元用戶就可以無限制地使用Peech應用並可以根據自己的需要上傳盡可能多的word文檔、PDF或文章鏈接。另

2022-09-21

9月21日,微軟正式發佈Windows112022更新,這也是Windows11發佈以來的首個重大更新,同步向190多個國傢和地區的用戶全面推送。微軟表示,去年推出的Windows11,讓PC變得更加現代化,尤其是在系統底層增加安全特性,而微軟每天都會

2023-09-29

快科技9月29日消息,ChatGPT在25日正式推出全新版本,現在可以看、聽、說”。新的版本支持語音進行操作和溝通,通過新型文本轉語音模型和語音識別系統實現,允許用戶進行語音對話,並且提供5種不同的語音選擇,iOS和安卓AP

2024-02-15

是一個例子,三秒鐘的語音樣本就能訓練出一個聽起來像任何人的模型,即使是像語音郵件問候語這樣無害的東西,也可以用來獲得足夠的樣本。"微軟的解決方案是利用人工智能來應對人工智能攻擊。"人工智能可以幫助

2023-11-07

開發者分成,不過具體的分配方案還尚未公開。關於錢和微軟在現場的Assistants API演示過程中,OpenAI工作人員開放一個現場抽獎,第一波抽獎是隨機選5個到場工程師每人發500美元的開發者額度。第二波則直接給到場的900多名軟件

2024-04-01

這一技術的研發始於2022年,並已應用於公司現有的文本轉語音API和Read Aloud功能中的預設語音。OpenAI認為,Voice Engine技術對於多個領域具有重大意義。在閱讀輔助和語言翻譯方面,它能夠提供更為自然的語音輸出,增強用戶體驗