盡管包括Google、亞馬遜和Meta在內的科技巨頭,都將各自開發的功能強大的語音識別系統置於其軟件和服務的核心地位。但在人工智能和機器學習領域,語音識別仍是一個頗具挑戰性的話題。好消息是,今日OpenAI隆重地宣佈Whisper的開源——可知作為一套自動語音識別系統,官方宣稱它能夠實現多種語言的強大轉錄、並將它們翻譯成英語。
(來自:OpenAI Blog)
OpenAI 表示,Whisper 的不同之處,在於其接受從網絡收集的 68 萬小時的多語言和“多任務”訓練數據,從而提升該方案對獨特口音、背景噪聲和技術術語的識別能力。
官方 GitHub 存儲庫上的概述稱:
Whisper 模型的主要目標用戶,是研究當前模型穩健性、泛化、能力、偏差和約束的 AI 研究人員。
與此同時,它也很適合作為面向開發者的自動語音識別解決方案尤其是英語語音識別。
感興趣的朋友,可以從托管平臺上下載 Whisper 系統的多個版本,其模型在大約 10 種語言上展現出強大的 ASR 結果。
此外假如在某些任務上加以微調的話,它們還有望在語音活動檢測、講述者分類等應用場景下表現出額外的能力。
架構示意
遺憾的是,Whisper 尚未在相關領域得到強有力的評估、且模型也有其局限性 —— 有其在文本預測領域。
由於該系統接受大量“嘈雜”的數據訓練,OpenAI 決定提前給大傢打一劑預防針,警告稱 Whisper 可能在轉錄中包含實際上未講述的單詞。
原因可能是 Whisper 既試圖預測音頻中的下一個單詞、又試圖轉錄音頻本身。
流程示例
此外 Whisper 在不同語言場景下的表現也不大一致,尤其涉及在訓練數據中沒有很好被代表的語言的講述者時,其錯誤率也會更高。
不過後者在語音識別領域早已不是什麼新鮮事,即使業內首屈一指的系統,也一直受到此類偏差的困擾。
參考斯坦福大學在 2020 年分享的一項研究結果 —— 相較於黑人,來自亞馬遜、蘋果、Google、IBM 和微軟的系統,針對白人用戶的錯誤率要低得多(大約 35%)。
Whisper 有約 1/3 的音頻數據集為非英語
即便如此,OpenAI 還是認為 Whisper 的轉錄功能,可被用於改進現有的可訪問性工具。其在 GitHub 上寫道:
盡管 Whisper 模型不適用於開箱即用的實時轉錄,但其速度和大小表明,其他人可在此基礎上構建近乎實時的語音識別和翻譯應用程序。
建立在 Whisper 模型之上的有益應用程序,其價值切實地表明這些模型的不同性能,有望發揮出真正的經濟影響力。
我們希望大傢能夠將該技術積極應用於有益目的,使自動語音識別技術更易獲得改進、讓更多參與者能夠打造出更負責任的項目。
在速度和準確性的雙重優勢下,Whisper 將允許對大量通信提供可負擔得起的自動轉錄和翻譯體驗。