字節推語音生成模型Seed-TTS 擅長感情控制,聲音與真人無異


站長之傢(ChinaZ.com) 6月6日 消息:繼ChatTTS之後,字節跳動團隊提出一種名為Seed-TTS的新型語音生成模型。Seed-TTS基於自回歸Transformer架構,能夠生成聽起來非常自然且富有表現力的語音,其質量與人類語音極為接近,難以區分。

演示視頻

該模型在多個方面表現出色,特別是在情感控制、小說配音和跨語言內容創作等方面。Seed-TTS模型通過自我蒸餾和強化學習技術,提升其發音的自然性和可控性。此外,研究團隊還提出該模型的非自回歸變體,進一步增強模型的性能。

Seed-TTS的推理過程包括四個主要步驟:

  • 語音分詞器:學習並理解參考語音中的各個音素或音標。

  • 自回歸語言模型:根據輸入的文本和已有的語音信息生成語音標記。

  • 擴散變換器:采用分層方法生成連續的語音表示,為語音合成提供中間特征。

  • 聲學波形合成器:從擴散變換器的輸出生成更高質量的語音波形。

Seed-TTS在多種語音特征的可控性上展現出優越性能,並且在不同語言的語音生成任務中也有良好的表現。它在零樣本(zero-shot)語境學習、發音調整和情感控制方面具有廣泛的應用潛力。

總體而言,Seed-TTS模型在語音合成領域帶來顯著的進展,為創造更自然、更可控的語音合成技術開辟新的道路。這項技術的突破預示著未來在提高語音合成自然度和表現力方面將會有更多的可能性和創新應用。

項目頁:https://top.aibase.com/tool/seed-tts


相關推薦

2024-04-24

音來自被告一北京某智能科技公司運營的平臺中的文本轉語音產品。原告曾為被告二北京某文化傳媒公司錄制錄音制品,而被告二將這些錄音制品的音頻提供給被告三某軟件公司,允許其使用、復制、修改數據用於其產品和服務

2023-09-29

式推出全新版本,現在可以看、聽、說”。新的版本支持語音進行操作和溝通,通過新型文本轉語音模型和語音識別系統實現,允許用戶進行語音對話,並且提供5種不同的語音選擇,iOS和安卓APP都已經開放。有網友展示對於ChatG

2022-06-23

北京時間6月23日消息,亞馬遜準備讓Alexa語音助手模擬任何人的聲音。它正在開發一套系統,引入新系統後,Alexa隻要不到一分鐘時間聽聽錄音就能模擬裡面的人聲。亞馬遜高級副總裁羅希特·普拉薩德(Rohit Prasad)說,在大流行

2024-09-29

新知,作者丨蕭維編輯丨蕨影,授權站長之傢轉載發佈。字節跳動以性價比策略切入市場,掀起價格競爭,但高性能模型仍保持付費門檻。B端市場對豆包視頻大模型的接納度有待觀察,其商業變現與用戶場景適配性成為主要考

2024-04-08

。與ChatGPT、Claude3等基於文本的聊天機器人不同,EVI為純語音交互,強調通過分析人類言語和聲音,來理解人類用戶最真實的心理狀況。畢竟,在開心、憤怒、失落、困倦時說同一句話,即使內容都一樣,但聽起來的感覺也一定

2024-05-31

之嫌。事實是,和陳林當初負責教育業務一樣,張楠在為字節攻克新高地。一位剪映內部人士告訴新莓daybreak,其實張楠一直在負責剪映,隻是現在全人力投入,在組織架構層面做出不小的調整,包括精簡組織,高管調動。差不

2024-05-16

作者:Yoky,授權站長之傢轉載發佈。過去一年,圍繞著字節AI的幾個謎團,終於都在今天被揭開。5 月 15 日火山引擎Force原動力大會上,字節大模型進行全系列更名,從雲雀大模型升級為豆包大模型傢族,一口氣發佈 9 個豆包模

2023-11-17

一款名為DeepfakesCreator的工具,被稱為AzureAISpeech的文本到語音化身。這個工具可以通過文本輸入生成逼真的會說話的真人視頻。用戶隻需要上傳想要化身模仿的人的照片,並寫一個劇本,工具就能創建出逼真的人物化身視頻,模

2024-05-22

表態發生在一場新的爭議爆發之際,涉及一款 OpenAI 的 AI 語音與女演員斯嘉麗・約翰遜的聲音極為相似。Altman 在2022年 OpenAI 發佈 ChatGPT 之後聲名鵲起,如今他也面臨著關於公司 AI 安全性的問題,尤其是在負責減輕長期 AI 風險的

2024-10-10

理後認定,軟件公司僅使用殷某的聲音開發涉案的文本轉語音產品,該AI合成的聲音與殷某自然的音色、語調、發音風格高度一致,足以使得普通人將其與殷某本人聯系起來,識別出殷某的身份。因此,殷某的聲音權益保護范圍

2023-01-10

自從第一個文本到語音(TTS)模型發佈以來,研究人員一直在尋找讓計算機系統產生語音的方法,微軟的最新模型VALL-E是在這方面的一個重要進步。VALL-E是一個基於轉換器的TTS模型,隻需聽到三秒鐘的聲音樣本就能生成任何聲音

2022-10-09

攻,小堂妹作為AI虛擬人的“技能點”大多都加到唱跳、語音方面。這一點,從小堂妹過往的經歷中就有所體現:2020年7月曾做客“故事FM”講述人工智能眼中的人類世界,以及“她”對人工智能與人類關系的理解。2021年1月12日

2023-11-07

體取決於提示。在其他方面,OpenAI 現在提供一個文本到語音 API--Audio API,它提供六種預設語音--Alloy、Echo、Fable、Onyx、Nova 和 Shimer--供用戶選擇,還提供兩種生成式 AI 模型變體。它從今天開始上線,每次輸入 1000 個字符的價格為

2024-03-30

工智能研究公司OpenAI在官網首次分享名為“VoiceEngine”(語音引擎)的預覽。據介紹,通過輸入文本和15秒音頻樣本,VoiceEngine便可以生成一個與音頻中說話者非常相似的自然語音。新聞稿強調,生成的自然語音具有豐富的情感和