OpenAI宣佈開源多語言語音識別系統Whisper


盡管包括Google、亞馬遜和Meta在內的科技巨頭,都將各自開發的功能強大的語音識別系統置於其軟件和服務的核心地位。但在人工智能和機器學習領域,語音識別仍是一個頗具挑戰性的話題。好消息是,今日OpenAI隆重地宣佈Whisper的開源——可知作為一套自動語音識別系統,官方宣稱它能夠實現多種語言的強大轉錄、並將它們翻譯成英語。

(來自:OpenAI Blog)

OpenAI 表示,Whisper 的不同之處,在於其接受從網絡收集的 68 萬小時的多語言和“多任務”訓練數據,從而提升該方案對獨特口音、背景噪聲和技術術語的識別能力。

官方 GitHub 存儲庫上的概述稱:

Whisper 模型的主要目標用戶,是研究當前模型穩健性、泛化、能力、偏差和約束的 AI 研究人員。

與此同時,它也很適合作為面向開發者的自動語音識別解決方案尤其是英語語音識別。

感興趣的朋友,可以從托管平臺上下載 Whisper 系統的多個版本,其模型在大約 10 種語言上展現出強大的 ASR 結果。

此外假如在某些任務上加以微調的話,它們還有望在語音活動檢測、講述者分類等應用場景下表現出額外的能力。

架構示意

遺憾的是,Whisper 尚未在相關領域得到強有力的評估、且模型也有其局限性 —— 有其在文本預測領域。

由於該系統接受大量“嘈雜”的數據訓練,OpenAI 決定提前給大傢打一劑預防針,警告稱 Whisper 可能在轉錄中包含實際上未講述的單詞。

原因可能是 Whisper 既試圖預測音頻中的下一個單詞、又試圖轉錄音頻本身。

流程示例

此外 Whisper 在不同語言場景下的表現也不大一致,尤其涉及在訓練數據中沒有很好被代表的語言的講述者時,其錯誤率也會更高。

不過後者在語音識別領域早已不是什麼新鮮事,即使業內首屈一指的系統,也一直受到此類偏差的困擾。

參考斯坦福大學在 2020 年分享的一項研究結果 —— 相較於黑人,來自亞馬遜、蘋果、Google、IBM 和微軟的系統,針對白人用戶的錯誤率要低得多(大約 35%)。

Whisper 有約 1/3 的音頻數據集為非英語

即便如此,OpenAI 還是認為 Whisper 的轉錄功能,可被用於改進現有的可訪問性工具。其在 GitHub 上寫道:

盡管 Whisper 模型不適用於開箱即用的實時轉錄,但其速度和大小表明,其他人可在此基礎上構建近乎實時的語音識別和翻譯應用程序。

建立在 Whisper 模型之上的有益應用程序,其價值切實地表明這些模型的不同性能,有望發揮出真正的經濟影響力。

我們希望大傢能夠將該技術積極應用於有益目的,使自動語音識別技術更易獲得改進、讓更多參與者能夠打造出更負責任的項目。

在速度和準確性的雙重優勢下,Whisper 將允許對大量通信提供可負擔得起的自動轉錄和翻譯體驗。


相關推薦

2022-09-25

類水平的語音識別系統來?沒錯,OpenAI新開源一個名為「Whisper」的新語音識別系統,據稱在英文語音識別方面擁有接近人類水平的魯棒性和準確性!不僅如此,對於不同口音、專業術語的識別效果也是杠杠的!一經發佈就在推

2023-09-26

行選擇的聲音。此外,該功能還能使用開源語音識別系統Whisper,將用戶說的話轉錄成文本。外媒報道稱,語音輸入和語音輸出功能使ChatGPT具有與亞馬遜Alexa等語音助手相同的功能。在圖像方面,新功能允許用戶上傳圖像與ChatGPT

2024-03-23

OpenAI申請商標VoiceEngine,暗示著OpenAI可能即將推出圍繞語音引擎開發的產品或者服務,很有可能是類似Siri那樣的個人助理產品。OpenAI正在申請一個新商標VoiceEngine,商標的覆蓋范圍主要是圍繞語音識別、語音合成和語音生成幾個

2024-05-02

tRTX,以支持語音查詢。NVIDIA 集成人工智能語音識別系統 Whisper,可讓用戶使用語音搜索數據。

2022-10-03

備上的識別。在一項新舉措中,一個項目旨在通過針對有語言障礙和殘疾的人,進一步提高準確性。與蘋果、亞馬遜、Google、Meta和微軟以及非營利組織合作,UIUC的語音可及性項目將試圖擴大語音識別系統能夠理解的語音模式范

2023-08-07

路、認字等多種功能。項目創新性地將視覺識別模型和大語言模型進行有機結合,讓用戶不僅可以通過自然對話的方式解眼前的世界,更能理解其邏輯關系,向真正“理解世界”又踏出一步。同時,項目也為全尺寸人形仿生機器

2023-03-02

新到新的穩定版本。此外,OpenAI還推出基於large-v2模型的Whisper官方API。Whisper是OpenAI去年9月發佈的開源自動語音識別(ASR)模型。開發者可用該功能來轉錄或翻譯音頻,費用為每分鐘0.006美元。01.ChatGPT官方API來!輸出100萬個Tokens

2023-03-02

三(3月1日),OpenAI宣佈正式推出面向商業用戶的ChatGPT和Whisper語音轉文字API,並給出一系列商業夥伴已經上線的案例。簡單來說,繼去年11月向公眾推出ChatGPT聊天機器人後,OpenAI現在開始向有意在自傢APP或產品中提供相同AIGC服

2022-12-21

的一篇博文,這兩項功能是在周一舉行的Google印度會議上宣佈的,同時Google還努力創建"一個單一的、統一的人工智能模型,將能夠處理超過100種印度語言的語音和文本"。這並不是Google為支持多語言用戶所采取的第一步。

2023-11-07

一份相關的公告中,OpenAI 推出其開源自動語音識別模型 Whisper large-v3 的下一個版本,該公司聲稱該模型在各種語言中的性能都有所提高。該版本已在 GitHub 上發佈,采用許可授權。

2023-01-11

提的是,VALL·E訓練用的數據集不算特別大。相比OpenAI的Whisper用68萬小時的音頻訓練,在隻用7000多名演講者、6萬小時訓練的情況下,VALL·E就在語音合成相似度上超過經過預訓練的語音合成模型YourTTS。而且,YourTTS在訓練時,事先

2023-11-07

語音模型遠超市場上的同類,並宣佈開源語音識別模型 Whisper V3。第五,模型微調與定制。8 月,OpenAI 曾經發佈過 GPT-3.5 Turbo 的微調服務。當時,有早期測試表明,經過微調的 GPT-3.5 Turbo 版本在某些任務中甚至可以超越 GPT-4,不

2023-11-07

)都在今日進入API。OpenAI也在今天發佈新的語音識別模型Whisper V3,將在近期向開發者提供API。5、繼向全球開發者開放GPT 3.5微調(Fine-tuning)後,OpenAI宣佈將向活躍開發者提供GPT-4微調的資格。對於開發細分行業的垂直AI應用而言

2024-04-07

違反該平臺的政策。據《紐約時報》報道,OpenAI 使用其 Whisper 語音識別工具轉錄超過 100 萬小時的 YouTube 視頻,然後用於訓練 GPT-4。The Information此前曾報道,OpenAI 曾使用 YouTube 視頻和播客來訓練這兩個人工智能系統。據報道,Op