OpenAI可能會推出Jarvis一樣的個人助理 新商標Voice Engine信息匯總


OpenAI申請商標VoiceEngine,暗示著OpenAI可能即將推出圍繞語音引擎開發的產品或者服務,很有可能是類似Siri那樣的個人助理產品。OpenAI正在申請一個新商標VoiceEngine,商標的覆蓋范圍主要是圍繞語音識別、語音合成和語音生成幾個方面。這暗示著OpenAI可能即將推出圍繞語音引擎開發的產品或者服務,很有可能是類似Siri那樣的個人助理產品。

盡管這是商標申請,但是Google前雇員透露的信息以及上個月泄露的OpenAI正在開發的Agent產品都似乎印證著OpenAI要做的事情:

開發一個全球最強的個人助理,接管個人設備,以Jarvis那樣的形式提供服務!


Voice Engine商標內容

Voice Engine是OpenAI最近提交一個商標名稱,其內容主要包含語音識別和語音合成相關的內容。


這個商標背後可能提供的產品和服務涵蓋廣泛的計算機軟件和開發工具領域,特別是在語音和自然語言處理技術方面。具體來說,可能提供的產品和服務包括但不限於:

  • 自動語音識別和生成軟件:用於自動識別和生成語音的軟件,可能在虛擬助手、智能傢居設備等場景中有廣泛應用。

  • 基於自然語言提示生成語音和音頻輸出的軟件:這類軟件能夠根據文本、語音、視覺提示、圖像或視頻生成語音和音頻輸出,可用於各種應用,如內容創作、教育、娛樂等。註意,這不是文本轉語音,而是根據文本提示生成語音結果!

  • 數字語音助手開發工具:提供用於構建數字語音助手的軟件和開發工具,有助於開發者創建智能交互應用。雖然是工具,但是顯然這是可以用於開發個人助理的工具!

  • 響應用戶提示生成音頻或語音的軟件:這類軟件能夠根據用戶的提示生成相應的音頻或語音輸出,可能用於互動媒體、遊戲或其他應用中。這個目前在ChatGPT客戶端也有,就是用語音響應用戶輸入。

  • 機器學習基礎的自然語言和語音處理軟件:涉及使用機器學習技術進行自然語言和語音的處理、識別和分析的軟件。

  • 多語言語音識別、翻譯和轉錄軟件:支持多語言的語音識別、翻譯和轉錄功能的軟件,適用於國際化應用、內容創作等場景。

  • 應用程序接口(API)軟件和軟件開發套件(SDKs):提供可作為API使用的軟件,可能支持開發者在各種應用和服務中集成語音和自然語言處理功能。

綜上所述,VOICE ENGINE™旨在為開發者和創新者提供一系列強大的工具和軟件,以便在各種平臺和設備上開發和集成先進的語音交互和自然語言處理功能。

而這其中最令人關註的應該是下面的2個內容:一個是可以配合Sora視頻生成的功能,為視頻配音;另一個則是作為個人助理,支持語音交互!

為Sora視頻配音的語音生成功能

傳統的語音領域的模型主要方向包括2類:一個是語音合成,即Text to speech(TTS):將文本轉成語音。另一個是自動語音識別(Auto Speech Recognition,ASR),即識別語音轉成文本。

但是,根據這個描述響應用戶提示生成音頻或語音的軟件,這個能力應該是類似視頻生成和圖片生成那種,基於文本prompt,來生成相應的語音結果。

例如,你可以給系統說,生成一段音樂或者一隻老虎在野外和獅子戰鬥的聲音。然後模型返回相應的語音結果。這不是一種文本轉語音而是語音生成的能力。

在最近爆火的OpenAI的Sora演示中(OpenAI最強的視頻生成大模型: OpenAI發佈全新文本生成視頻大模型Sora,可以生成無比逼真的最長60秒的視頻,且生成的視頻尺寸可以任意指定),所有的視頻都沒有聲音。OpenAI官方說目前他們還沒有實現為生成的視頻配音的功能。但是未來會支持。這意味著基於文本生成音頻應該也是類似的技術。

與Agent傳言互相印證:OpenAI的Jarvis產品

在前面的商標描述中提到,OpenAI的Voice Engine可以提供響應用戶提示生成音頻或語音的軟件。這幾乎就是一個個人數字助理的形態,它不同於語音合成或者語音識別。而是根據用戶的輸入進行語音的響應。這意味著用戶可以通過文本、語音來輸入,然後服務直接用語音回復結果。

從技術角度來說,傳統的語音助理應該是先通過ASR識別用戶的語音,然後轉成文本,GPT再根據文本生成答案,再由TTS技術合成語音輸出。這個分步系統最大的缺點就是時延以及準確性!三個步驟,每個步驟準確率90%,最終的回復準確率可能隻有72.9%!如果這是一個端到端的模型(符合OpenAI當前的技術趨勢),那麼時延和準確性都值得期待!

此外,結合此前的傳言說GPT可能要接入個人本地電腦系統,那作為一個個人助手完全是沒問題的。

同時,Google前雇員Jonathan Chavez在前段時間也發佈過一個消息,他說OpenAI在今年會推出一個全球最好的個人助理產品,就像鋼鐵俠中的Jarvis。


Jarvis除需要有GPT-4那種強大的語言響應能力外,還有個重要的特點是語音的輸入和輸出。雖然在當前的ChatGPT客戶端和網頁版中已經實現語音交互以及文本轉語音的能力。但是,它本身是為支撐ChatGPT的功能存在的,范圍局限在ChatGPT的對話過程中。一旦如果像Jonathan Chavez所說是一個前所未有最強大的個人助理,那麼意味著它可以幫助我們操作我們的電腦和手機,使用APP等。

這個消息和上個月泄露的OpenAI正在做一個強大的AI Agent也有很大的相關性:OpenAI正在開發一個全新的基於大模型的Agent產品。

在這個傳言中,OpenAI做的事情描述如下:

OpenAI正在開發的這個Agent形式的產品,通過有效地接管用戶的設備來讓復雜任務被自動執行。然後,用戶可以請求ChatGPT將數據從文檔轉移到電子表格中進行分析,或自動填寫費用報告並將其輸入會計軟件。這類請求將觸發ChatGPT來執行點擊、光標移動、文本輸入以及人們在使用不同應用程序時進行的其他操作。

相關推薦

2024-04-01

快科技3月31日消息,據媒體報道,OpenAI公司最近推出一項革命性的聲音克隆技術Voice Engine”。據悉,Voice Engine通過文本輸入和15秒的音頻樣本,便能生成與原始說話者聲音極為相似、情感豐富且自然逼真的語音。這一技術的研發

2024-09-29

如果他們選擇無視解決分歧並達成商業許可協議的努力,可能會取消訪問權限。他還指出,WP Engine 將這種風險直接轉嫁給其客戶。在過去一周,穆倫維格 稱 WP Engine 是“WordPress 的癌癥”,並指責他們對 WordPress 生態系統的貢獻

2024-03-30

當地時間周五(3月29日),美國人工智能研究公司OpenAI在官網首次分享名為“VoiceEngine”(語音引擎)的預覽。據介紹,通過輸入文本和15秒音頻樣本,VoiceEngine便可以生成一個與音頻中說話者非常相似的自然語音。新聞稿強調,

2023-02-17

用,國內外都是如此,其中微軟因為投資ChatGPT的開發商OpenAI較早,因此可以更快地接入ChatGPT服務,從搜索引擎bing到Edge瀏覽器,再到office等軟件、服務都在AI化。

2024-03-30

微軟和OpenAI已經建立緊密的合作關系。OpenAI利用微軟提供的大量資金繼續開發其生成式人工智能模型。反過來,微軟利用OpenAI的模型幫助開發自己的Copilot助手,並在其Azure雲服務中提供OpenAI的模型。今天,來自The Information 的一

2023-03-19

可以極大地改善我們的生活。“我們在這裡必須小心,”OpenAI首席執行官薩姆奧特曼說。“我認為人們應該為我們對此有點害怕而感到高興。”Altman 坐下來接受 ABC 新聞首席商業、技術和經濟記者 Rebecca Jarvis 的獨傢采訪,談論GP

2023-05-07

5月7日消息,在剛剛過去的一周,OpenAI已經成功安撫意大利監管機構,促使其解除對聊天機器人ChatGPT的臨時禁令,但這傢人工智能研究公司與歐洲監管機構的鬥爭仍未結束,更多挑戰才剛剛開始。今年早些時候,OpenAI廣受歡迎但

2023-11-27

再正式參與微軟的日常運營,但仍在擔任顧問,並且熟悉OpenAI領導團隊的想法。消息來自德國《商報》(Handelsblatt)對蓋茨的采訪。蓋茨表示,OpenAI內部包括奧特曼在內的很多人,都相信GPT-5將明顯優於GPT-4。但他認為,有很多

2023-04-25

如果初創公司OpenAI最近對其品牌發起保護,那是可以理解的。ThreatGPT、MedicalGPT、DateGPT和DirtyGPT僅僅是最近幾個月向美國國傢專利和商標局申請商標的眾多企業中的一個樣本。所有這些都是借助於ChatGPT的驚人人氣,OpenAI在11月推

2024-03-01

界。這也是很多人對於 AI Pin 最期待的地方。回想一下,OpenAI 去年發佈 GPT-4 的時候,就特意演示過讓 GPT-4 通過照片解冰箱裡的“材料”,並以此給出一份合適的菜譜。理論上,通過視頻獲取的信息密度遠高於照片,而“看我所

2024-03-30

大國、科技巨頭紛紛大力投資建設算力的背景下,微軟和OpenAI的數據中心投資計劃突然被曝光在世人眼前。根據知名科創媒體TheInformation周五報道,微軟、OpenAI正在進行一項分為五個階段的超級計算機建設項目,擬動用的投資將

2023-11-07

能是一夜未眠。北京時間11月7日凌晨,美國人工智能公司OpenAI的開發者大會正式開啟,創始人SamAltman在臺上和同事,隻用45分鐘時間,就“轟”出團隊最新的成果GPT-4Turbo,後者不僅更快、有更長的上下文、而且更好的控制。同時

2022-07-21

帶來相機升級,就像GalaxyS22Ultra一樣,這傢韓國制造商很可能會匯集更多資源,使即將到來的GalaxyS23Ultra脫穎而出。其中一個方法是為這款頂級手機帶來先進的光學技術,當然還有--一個新的商標,根據新的泄漏,這個與影像技術

2024-02-16

美國專利商標局(U.S.PatentandTrademarkOffice)駁回OpenAI申請"GPT"商標的嘗試,裁定該詞"僅僅是描述性的",因此不能註冊。這對OpenAI的品牌形象是一個打擊,但不要指望它的競爭對手會開始發佈