3秒復制任何人的嗓音 微軟音頻版DALL·E連環境背景音也能模仿


隻需3秒鐘,一個根本沒聽過你說話的AI,就能完美模仿出你的聲音。是不是細思極恐?這是微軟最新AI成果——語音合成模型VALL·E,隻需3秒語音,就能隨意復制任何人的聲音。它脫胎於DALL·E,但專攻音頻領域,語音合成效果在網上放出後火:


有網友表示,要是將VALL·E和ChatGPT結合起來,效果簡直爆炸:

看來與GPT-4在Zoom裡聊天的日子不遠。


還有網友調侃,(繼AI搞定作傢、畫傢之後)下一個就是配音演員。


所以VALL·E究竟怎麼做到3秒鐘模仿“沒聽過”的聲音?

用語言模型來分析音頻

基於AI“沒聽過”的聲音合成語音,即零樣本學習。

語音合成趨於成熟,但之前零樣本語音合成效果並不好。

主流語音合成方案基本是預訓練+微調模式,如果用到零樣本場景下,會導致生成語音相似度和自然度很差。

基於此,VALL·E橫空出世,相比主流語音模型提出不太一樣的思路。


相比傳統模型采用梅爾頻譜提取特征,VALL·E直接將語音合成當成語言模型的任務,前者是連續的,後者是離散化的。

具體來說,傳統語音合成流程往往是“音素→梅爾頻譜(mel-spectrogram)→波形”這樣的路子。

但VALL·E將這一流程變成“音素→離散音頻編碼→波形”:


具體到模型設計上,VALL·E也和VQVAE類似,將音頻量化成一系列離散tokens,其中第一個量化器負責捕捉音頻內容和說話者身份特征,後幾個量化器則負責細化信號,使之聽起來更自然:


隨後以文本和3秒鐘的聲音提示作為條件,自回歸地輸出離散音頻編碼:


VALL·E還是個全能選手,除零樣本語音合成,同時還支持語音編輯、與GPT-3結合的語音內容創建。

那麼在實際測試中,VALL·E的效果如何呢?

連環境背景音都能還原

根據已合成的語音效果來看,VALL·E能還原的絕不僅僅是說話人的音色。

不僅語氣模仿到位,而且還支持多種不同語速的選擇,例如這是在兩次說同一句話時,VALL·E給出的兩種不同語速,但音色相似度仍然較高:


同時,連說話者的環境背景音也能準確還原。

除此之外,VALL·E還能模仿說話者的多種情緒,包括憤怒、困倦、中立、愉悅和惡心等好幾種類型。

值得一提的是,VALL·E訓練用的數據集不算特別大。

相比OpenAI的Whisper用68萬小時的音頻訓練,在隻用7000多名演講者、6萬小時訓練的情況下,VALL·E就在語音合成相似度上超過經過預訓練的語音合成模型YourTTS。

而且,YourTTS在訓練時,事先已經聽過108個演講者中的97人聲音,但在實際測試中還是比不過VALL·E。


有網友已經在暢想它可以應用的地方:

不僅可以用在模仿自己的聲音上,例如幫助殘障人士和別人完成對話,也可以在自己不想說話時用它代替自己發語音。

當然,還可以用在有聲書的錄制上。


不過,VALL·E目前還沒開源,要想試用可能還得再等等。


作者介紹這篇論文所有作者均來自微軟,其中有三位共同一作。


一作Chengyi Wang,南開大學和微軟亞研院聯合培養博士生,研究興趣是語音識別、語音翻譯和語音預訓練模型等。


共同一作Sanyuan Chen,哈工大和微軟亞研院聯合培養博士生,研究方向包括自監督學習、NLP和語音處理等。


共同一作Yu Wu,微軟亞研院NLP小組研究員,在北航獲得博士學位,研究方向是語音處理、聊天機器人系統和機器翻譯等。



相關推薦

2024-03-13

這是否有點像元數據或者嵌入式的標志?A:C2PA(Adobe、微軟等發起的技術協議,在媒體文件中嵌入元數據,驗證其來源和修改歷史)是這樣的。但我們訓練的分類器可以在任何圖像或視頻上運行,並判斷某個內容是否由我們的

2022-12-16

雖然微軟的Skype多年來由於未能與競爭對手相提並論而失去魅力,但這傢軟件公司從未忘記帶來新的更新以改善整體體驗。微軟再次做到這一點,宣佈今年對Skype應用程序進行最大的設計改造。除新的設計之外,Skype的體驗還包括

2023-01-17

微軟CEO薩蒂亞‧納德拉(SatyaNadella)正在醞釀該公司史上最大一筆創業投資,希望在將先進的人工智能工具融入搜索引擎和應用程序的類似競爭中,讓這傢軟件巨頭領先於谷歌。ChatGPT可以驚人地根據提示或查詢生成類似人類對

2023-03-10

最近,微軟是喜訊連連。昨天,微軟德國CTO在活動中透露,GPT-4將在下周發佈,將提供多模態模型。毫無疑問,微軟要搞個大的——GPT-4將轉向多模態,Kosmos-1也是多模態,微軟亞研院3月8日提出的VisualChatGPT,也把視覺基礎模型整

2022-08-16

Tok就可以根據文字描述生成一張豎版畫作,用作短視頻的背景:圖片來源:矽星人截圖TikTok用的這個文字轉圖片模型,還是非常簡單的。矽星人測試幾個含義大相徑庭的提示,生成的圖片可以說都十分的“迷幻",沒有任何寫

2023-02-13

用來訓練 Stable Diffusion,這是一種免費的人工智能模型,任何人都可以通過簡單的文字提示就能生成專業品質的圖像。Stable Diffusion 支持幾十個流行的應用,如 Lensa。12 月份,麥柯南寫一條推文,說:“起初,這很令人興奮,也

2023-04-25

以隻是為澄清事實:- 商標與版權非常不同。版權阻止你復制東西,商標隻是阻止你假裝是(或與)該商標所代表的人/公司有關。- 這就是最終的目的:商標保護消費者不被冒名頂替者所欺騙。就什麼都不做而言,它覆蓋的范圍

2022-09-10

。和 Dall・E、Midjourney 不同,它是完全免費、不限次數、任何人都可用的。對硬件的要求也不高,普通顯卡上就能跑,顯存不到 10GB,也能在幾秒鐘內生成高清圖像。生成效果上,可以說完全不亞於 Dall・E、Midjourney,因此在社交

2022-10-08

而且這是目前唯一一個開源的T2V模型。更早之前,GODIVA和微軟的“女媧”也都實現過根據文字描述生成視頻。不過這一次,Make-A-Video在生成質量上有明顯的提升。在MSR-VTT數據集上的實驗結果顯示,在FID(13.17)和CLIPSIM(0.3049)

2024-02-18

趣,畫面細膩逼真,采用50mm f/1.2鏡頭拍攝。視頻風格和環境的變換利用擴散模型,就能通過文本提示來編輯圖像和視頻。在這裡,研究者將一種名為SDEdit的技術應用於Sora,使其能夠不需要任何先驗樣本,即可改變視頻的風格和

2024-02-18

趣,畫面細膩逼真,采用50mm f/1.2鏡頭拍攝。視頻風格和環境的變換利用擴散模型,就能通過文本提示來編輯圖像和視頻。在這裡,研究者將一種名為SDEdit的技術應用於Sora,使其能夠不需要任何先驗樣本,即可改變視頻的風格和

2024-02-17

趣,畫面細膩逼真,采用50mm f/1.2鏡頭拍攝。視頻風格和環境的變換利用擴散模型,就能通過文本提示來編輯圖像和視頻。在這裡,研究者將一種名為SDEdit的技術應用於Sora,使其能夠不需要任何先驗樣本,即可改變視頻的風格和

2024-02-17

趣,畫面細膩逼真,采用50mm f/1.2鏡頭拍攝。視頻風格和環境的變換利用擴散模型,就能通過文本提示來編輯圖像和視頻。在這裡,研究者將一種名為SDEdit的技術應用於Sora,使其能夠不需要任何先驗樣本,即可改變視頻的風格和

2024-04-01

一位因腦瘤失去清晰說話能力的年輕患者的聲音,方法是復制她此前為一個學校項目錄制的發言。OpenAI的自定義語音模型還可將生成的音頻翻譯成不同語言。這對於音頻行業公司非常有用,比如Spotify Technology SA。Spotify已經在自