能聽懂口音的開源語音系統來:OpenAI出品 支持99種語言


逼近人類水平的語音識別系統來?沒錯,OpenAI新開源一個名為「Whisper」的新語音識別系統,據稱在英文語音識別方面擁有接近人類水平的魯棒性和準確性!不僅如此,對於不同口音、專業術語的識別效果也是杠杠的!一經發佈就在推特上收獲4800+點贊,1000+轉發。


網友們紛紛對它意料之外的強大功能表示驚訝。

不僅是英文,有人用法國詩人波德萊爾的《惡之花》進行語音測試,得到的文本幾乎與原文一致


OpenAI聯合創始人&首席科學傢Ilya Sutskever就表示:

終於有一個靠譜的語音識別系統能聽懂我的口音。


前任特斯拉人工智能總監Andrej Karpathy甚至轉發評論:OpenAI正處於最好的狀態中。


話不多說,讓我們看看這個被“好評如潮”的語音系統究竟是怎麼回事。

逼近人類水平的語音識別系統

首先,Whisper最大特點是它使用的超大規模訓練集

它使用從網絡上收集的68萬小時的多語言、多任務監督數據進行訓練。

這導致數據集的內容非常多元化,涵蓋許多不同環境、不同錄音設備下、不同語言的音頻。

具體而言,65%(438218小時)是英語音頻和匹配的英語文本,大約18%(125739小時)是非英語音頻和英語文本,而最後17%(117113小時)則是非英語音頻和相應的文本。

其中,非英語部分共包含98種不同語言。


不過,雖然音頻質量的多樣性可以幫助提高訓練模型的魯棒性,但轉錄文本質量的多樣性並不是同樣有益的。

初步檢查顯示,原始數據集中有大量不合格的、現有自動語音識別(ASR)系統生成的轉錄文本。

而以往的研究表明,在人工和機器混合生成的數據集上進行訓練,會顯著損害翻譯系統的性能。

為解決這個問題,研究團隊開發幾種自動過濾方法來識別和刪除低質量的數據源。

但值得一提的是,沒有說話內容的片段會被留下,作為語音活動檢測的訓練數據。

其次,Whisper體系結構是一種簡單的端到端方法,具體來說就是Transformer的編碼器-解碼器格式。


輸入音頻被分成30秒的片段,再轉換成log-Mel譜圖,然後傳入編碼器。

解碼器被訓練來預測相應的文本標題,並混合特殊標記,指示單一模型執行諸如語言識別、多語言語音轉錄和英語語音翻譯等任務。


除此之外,研究人員還為Whisper設置5種不同的型號,以下是各模型大致的內存需求和相對速度,使用者可以自行選擇。

但需要註意的是,隻有“large”型號支持多語言,前4個模型都隻支持英語。


不過不需要擔心,與其他模型相比,英文語音識別正是Whisper的核心競爭力。

實驗結果證明,Whisper在Librispeech test-clean測試的錯誤率達到2.7%。

雖然這一數值與Wav2vec 2.0一樣,但在零樣本性能上,Whisper明顯更穩健,平均誤差減少55%


甚至零樣本Whisper模型還縮小與人類魯棒性之間的差距

可以看出,與人類Alec相比,LibriSpeech模型的錯誤率大約是人類的兩倍,而Whisper模型的魯棒性邊界則包括Alec95%的置信區間。


研究團隊

Whisper的研究團隊來自OpenAI,共同一作有兩位:Alec Radford、Jong Wook Kim。


Alec Radford,OpenAI的機器學習研究員,也是indico.io的聯合創始人。


Jong Wook Kim,在紐約大學獲得音樂技術專業的博士學位,研究方向包括多模態深度學習和音樂理解,目前是OpenAI的研究人員。


值得一提的是,研究團隊指出,雖然目前Whisper還沒有實時功能,但它的運行速度和內存大小表明,在這一基礎上搭建實時語音識別和翻譯功能是可行的。

他們希望Whisper的高精度和易用性,將允許開發人員將語音接口添加到更廣泛的應用程序中。

論文和GitHub鏈接附在文末,感興趣的小夥伴們可以自取~

論文鏈接:

https://cdn.openai.com/papers/whisper.pdf

GitHub鏈接:

https://github.com/openai/whisper#approach

參考鏈接:

[1]https://colab.research.google.com/github/openai/whisper/blob/master/notebooks/LibriSpeech.ipynb

[2]https://techcrunch.com/2022/09/21/openai-open-sources-whisper-a-multilingual-speech-recognition-system/?guccounter

[3]https://news.ycombinator.com/item?id=32927360

[4]https://twitter.com/alecrad

[5]https://jongwook.kim/


相關推薦

2022-09-22

的多語言和“多任務”訓練數據,從而提升該方案對獨特口音、背景噪聲和技術術語的識別能力。官方 GitHub 存儲庫上的概述稱:Whisper 模型的主要目標用戶,是研究當前模型穩健性、泛化、能力、偏差和約束的 AI 研究人員。與

2022-11-02

步--特別是強大的、多功能的"大型語言模型"或LLM的開發--使這些領域得到新的重視。Google已經開始將這些語言模型整合到Google搜索等產品中。但語言模型有許多缺陷,包括傾向於轉述有害的社會偏見,如種族主義和仇外

2023-11-14

能能力。2. 🤖 Poro是首個計劃覆蓋歐盟所有24種官方語言的開源模型,由Silo AI的SiloGen和圖爾庫大學的TurkuNLP研究小組開發。3. 🌍 Poro使用跨語言訓練方法,利用來自高資源語言(如英語)的數據,旨在解決為歐洲低資源語言訓練

2023-09-26

供5種可供用戶自行選擇的聲音。此外,該功能還能使用開源語音識別系統Whisper,將用戶說的話轉錄成文本。外媒報道稱,語音輸入和語音輸出功能使ChatGPT具有與亞馬遜Alexa等語音助手相同的功能。在圖像方面,新功能允許用戶

2023-02-01

今天,小米小愛語音App推送更新,下線包括河北話、山東話(濟南)、陜西話(太原)、天津話在內的四種方言識別功能。這意味著,新版本的小愛語音將僅支持東北話與河南話兩種方言的識別。對此,小米官方表示,隨著小愛

2023-11-07

一夜未眠。北京時間11月7日凌晨,美國人工智能公司OpenAI的開發者大會正式開啟,創始人SamAltman在臺上和同事,隻用45分鐘時間,就“轟”出團隊最新的成果GPT-4Turbo,後者不僅更快、有更長的上下文、而且更好的控制。同時,Ope

2022-12-21

中聽起來相似的單詞。新的語音識別模型考慮到說話者的口音、周圍的聲音、上下文和說話風格,使用戶能夠更自然地提出印度語問題。Google還沒有提到新的語音識別模型的發佈日期,也沒有提到它是否會用於其他混合語言和混

2022-10-20

文字,並將文字還原為語音,但Meta公司已經通過其最新的開源語言AI進展解決這個問題。作為Meta公司通用語音翻譯器(UST)項目的一部分,該項目正致力於開發實時語音到語音的翻譯,以便元宇宙居民能夠更容易地進行互動(

2023-05-02

斯(Alexander Huth)說,他協助領導這項研究,“我們正在聽懂意思,關於正在發生的事情的一些想法。可能發生的事實是非常令人興奮的。”一旦AI系統經過訓練,當參與者正在傾聽或想象講述一個新故事時,它可以生成一連串

2024-03-30

提到,在轉換語言時,Voice Engine會保留原始說話者的母語口音,例如樣本中的人使用的是法語,那麼生成的英語將帶有法國口音。本周早些時候,有消息稱HeyGen正在進行新一輪融資,投前估值達到4.4億美元。除此以外,OpenAI還展

2024-07-04

近日,一段別開生面的視頻在網絡上迅速走紅,視頻中一隻東北虎展現出令人驚訝的“語言天賦”,仿佛能夠聽懂地道的東北話指令。在飼養員的細心照料下,這隻東北虎在洗澡時表現得異常乖巧,按照飼養員用東北方言發出的

2024-06-09

快科技6月9日消息,近期,科學傢們在解讀狗叫聲的情感和意圖方面取得突破性進展。據媒體報道,密歇根大學與墨西哥國傢天體物理、光學和電子研究所(INAOE)的研究人員合作,開發一種AI模型,能夠以高達70%的準確率識別狗

2023-10-28

式獨特,同時還配備有智能交互燈光系統,在自動駕駛、語音交互等不同場景中會有不同的交互設計,用戶也可自由編程。前艙使用全球量產尺寸最大的“蚌式機蓋”,據稱其寬度達到1960mm,面積大2.15平方米,而作為一款智能

2023-02-19

劃重點:車載語音智能化的短板在“語義理解”,AI圈大火的ChatGPT對車載語音智能化加成明顯。ChatGPT上車,主要還是成本的問題,這背後包括使用成本、雲服務成本、針對性的訓練成本。雲知聲董事長CTO_梁傢恩對TechWeb表示,Cha