字節推語音生成模型Seed-TTS 擅長感情控制，聲音與真人無異

2024-06-06 來自科技快訊發表於業界精選

站長之傢(ChinaZ.com) 6月6日消息:繼ChatTTS之後，字節跳動團隊提出一種名為Seed-TTS的新型語音生成模型。Seed-TTS基於自回歸Transformer架構，能夠生成聽起來非常自然且富有表現力的語音，其質量與人類語音極為接近，難以區分。

演示視頻

該模型在多個方面表現出色，特別是在情感控制、小說配音和跨語言內容創作等方面。Seed-TTS模型通過自我蒸餾和強化學習技術，提升其發音的自然性和可控性。此外，研究團隊還提出該模型的非自回歸變體，進一步增強模型的性能。

Seed-TTS的推理過程包括四個主要步驟:

Seed-TTS在多種語音特征的可控性上展現出優越性能，並且在不同語言的語音生成任務中也有良好的表現。它在零樣本（zero-shot）語境學習、發音調整和情感控制方面具有廣泛的應用潛力。

總體而言，Seed-TTS模型在語音合成領域帶來顯著的進展，為創造更自然、更可控的語音合成技術開辟新的道路。這項技術的突破預示著未來在提高語音合成自然度和表現力方面將會有更多的可能性和創新應用。

項目頁：https://top.aibase.com/tool/seed-tts

相關推薦