站長之傢(ChinaZ.com) 6月6日 消息:繼ChatTTS之後,字節跳動團隊提出一種名為Seed-TTS的新型語音生成模型。Seed-TTS基於自回歸Transformer架構,能夠生成聽起來非常自然且富有表現力的語音,其質量與人類語音極為接近,難以區分。
演示視頻
該模型在多個方面表現出色,特別是在情感控制、小說配音和跨語言內容創作等方面。Seed-TTS模型通過自我蒸餾和強化學習技術,提升其發音的自然性和可控性。此外,研究團隊還提出該模型的非自回歸變體,進一步增強模型的性能。
Seed-TTS的推理過程包括四個主要步驟:
語音分詞器:學習並理解參考語音中的各個音素或音標。
自回歸語言模型:根據輸入的文本和已有的語音信息生成語音標記。
擴散變換器:采用分層方法生成連續的語音表示,為語音合成提供中間特征。
聲學波形合成器:從擴散變換器的輸出生成更高質量的語音波形。
Seed-TTS在多種語音特征的可控性上展現出優越性能,並且在不同語言的語音生成任務中也有良好的表現。它在零樣本(zero-shot)語境學習、發音調整和情感控制方面具有廣泛的應用潛力。
總體而言,Seed-TTS模型在語音合成領域帶來顯著的進展,為創造更自然、更可控的語音合成技術開辟新的道路。這項技術的突破預示著未來在提高語音合成自然度和表現力方面將會有更多的可能性和創新應用。
項目頁:https://top.aibase.com/tool/seed-tts