OpenAI申請商標VoiceEngine,暗示著OpenAI可能即將推出圍繞語音引擎開發的產品或者服務,很有可能是類似Siri那樣的個人助理產品。OpenAI正在申請一個新商標VoiceEngine,商標的覆蓋范圍主要是圍繞語音識別、語音合成和語音生成幾個方面。這暗示著OpenAI可能即將推出圍繞語音引擎開發的產品或者服務,很有可能是類似Siri那樣的個人助理產品。
盡管這是商標申請,但是Google前雇員透露的信息以及上個月泄露的OpenAI正在開發的Agent產品都似乎印證著OpenAI要做的事情:
開發一個全球最強的個人助理,接管個人設備,以Jarvis那樣的形式提供服務!
Voice Engine商標內容
Voice Engine是OpenAI最近提交一個商標名稱,其內容主要包含語音識別和語音合成相關的內容。
這個商標背後可能提供的產品和服務涵蓋廣泛的計算機軟件和開發工具領域,特別是在語音和自然語言處理技術方面。具體來說,可能提供的產品和服務包括但不限於:
自動語音識別和生成軟件:用於自動識別和生成語音的軟件,可能在虛擬助手、智能傢居設備等場景中有廣泛應用。
基於自然語言提示生成語音和音頻輸出的軟件:這類軟件能夠根據文本、語音、視覺提示、圖像或視頻生成語音和音頻輸出,可用於各種應用,如內容創作、教育、娛樂等。註意,這不是文本轉語音,而是根據文本提示生成語音結果!
數字語音助手開發工具:提供用於構建數字語音助手的軟件和開發工具,有助於開發者創建智能交互應用。雖然是工具,但是顯然這是可以用於開發個人助理的工具!
響應用戶提示生成音頻或語音的軟件:這類軟件能夠根據用戶的提示生成相應的音頻或語音輸出,可能用於互動媒體、遊戲或其他應用中。這個目前在ChatGPT客戶端也有,就是用語音響應用戶輸入。
機器學習基礎的自然語言和語音處理軟件:涉及使用機器學習技術進行自然語言和語音的處理、識別和分析的軟件。
多語言語音識別、翻譯和轉錄軟件:支持多語言的語音識別、翻譯和轉錄功能的軟件,適用於國際化應用、內容創作等場景。
應用程序接口(API)軟件和軟件開發套件(SDKs):提供可作為API使用的軟件,可能支持開發者在各種應用和服務中集成語音和自然語言處理功能。
綜上所述,VOICE ENGINE™旨在為開發者和創新者提供一系列強大的工具和軟件,以便在各種平臺和設備上開發和集成先進的語音交互和自然語言處理功能。
而這其中最令人關註的應該是下面的2個內容:一個是可以配合Sora視頻生成的功能,為視頻配音;另一個則是作為個人助理,支持語音交互!
為Sora視頻配音的語音生成功能
傳統的語音領域的模型主要方向包括2類:一個是語音合成,即Text to speech(TTS):將文本轉成語音。另一個是自動語音識別(Auto Speech Recognition,ASR),即識別語音轉成文本。
但是,根據這個描述響應用戶提示生成音頻或語音的軟件,這個能力應該是類似視頻生成和圖片生成那種,基於文本prompt,來生成相應的語音結果。
例如,你可以給系統說,生成一段音樂或者一隻老虎在野外和獅子戰鬥的聲音。然後模型返回相應的語音結果。這不是一種文本轉語音而是語音生成的能力。
在最近爆火的OpenAI的Sora演示中(OpenAI最強的視頻生成大模型: OpenAI發佈全新文本生成視頻大模型Sora,可以生成無比逼真的最長60秒的視頻,且生成的視頻尺寸可以任意指定),所有的視頻都沒有聲音。OpenAI官方說目前他們還沒有實現為生成的視頻配音的功能。但是未來會支持。這意味著基於文本生成音頻應該也是類似的技術。
與Agent傳言互相印證:OpenAI的Jarvis產品
在前面的商標描述中提到,OpenAI的Voice Engine可以提供響應用戶提示生成音頻或語音的軟件。這幾乎就是一個個人數字助理的形態,它不同於語音合成或者語音識別。而是根據用戶的輸入進行語音的響應。這意味著用戶可以通過文本、語音來輸入,然後服務直接用語音回復結果。
從技術角度來說,傳統的語音助理應該是先通過ASR識別用戶的語音,然後轉成文本,GPT再根據文本生成答案,再由TTS技術合成語音輸出。這個分步系統最大的缺點就是時延以及準確性!三個步驟,每個步驟準確率90%,最終的回復準確率可能隻有72.9%!如果這是一個端到端的模型(符合OpenAI當前的技術趨勢),那麼時延和準確性都值得期待!
此外,結合此前的傳言說GPT可能要接入個人本地電腦系統,那作為一個個人助手完全是沒問題的。
同時,Google前雇員Jonathan Chavez在前段時間也發佈過一個消息,他說OpenAI在今年會推出一個全球最好的個人助理產品,就像鋼鐵俠中的Jarvis。
Jarvis除需要有GPT-4那種強大的語言響應能力外,還有個重要的特點是語音的輸入和輸出。雖然在當前的ChatGPT客戶端和網頁版中已經實現語音交互以及文本轉語音的能力。但是,它本身是為支撐ChatGPT的功能存在的,范圍局限在ChatGPT的對話過程中。一旦如果像Jonathan Chavez所說是一個前所未有最強大的個人助理,那麼意味著它可以幫助我們操作我們的電腦和手機,使用APP等。
這個消息和上個月泄露的OpenAI正在做一個強大的AI Agent也有很大的相關性:OpenAI正在開發一個全新的基於大模型的Agent產品。
在這個傳言中,OpenAI做的事情描述如下:
OpenAI正在開發的這個Agent形式的產品,通過有效地接管用戶的設備來讓復雜任務被自動執行。然後,用戶可以請求ChatGPT將數據從文檔轉移到電子表格中進行分析,或自動填寫費用報告並將其輸入會計軟件。這類請求將觸發ChatGPT來執行點擊、光標移動、文本輸入以及人們在使用不同應用程序時進行的其他操作。