ChatGPT該給語音助手們補補“智商”


AI語音助手的“蠢”,好像全世界都知道。不管是Siri還是小愛同學,大部分使用過所謂“AI語音助手”的用戶大概都同意,它們肯定不算聰明。尤其是在ChatGPT出來之後,這種對比尤為明顯,甚至包括微軟的最高話事人也在批評自傢的語音助手。

微軟 CEO 薩蒂亞·納德拉最近在接受英國《金融時報》采訪時表示,蘋果的 Siri、亞馬遜的 Alexa,微軟自傢的 Cortana(中文名:小娜)以及公認拔尖的 Google Assistant,這些語音助手有一個算一個:

都笨得跟石頭一樣。


納德拉和 Cortana,圖/微軟

2014 年 4 月,納德拉剛剛上任微軟 CEO 兩個月後的微軟 Build 開發者大會上,微軟全球副總裁喬北峰正式推出 Cortana。在最初的幾年,Cortana 表現不俗的智能,也受到包括納德拉在內微軟高層的集體認可,納德拉在 2016 年還稱贊 Cortana 的智能,並說“機器人是新應用”。但 Cortana 的智能(橫向比較)和市場份額越來越糟糕,到 2021 年微軟就正式宣佈停止支持 iOS 和 Android 上的 Cortana 應用,僅保留對 Windows 平臺的支持。

更重要的是,OpenAI 帶著 ChatGPT 來,微軟直接拿到 AI 時代目前為止最好的一張船票。與此同時,語音助手在過去幾年基本陷入停滯,Siri 的聯合創始人 Adam Cheyer 也承認,ChatGPT 理解復雜信息的能力讓現有的語音助手看起來很蠢。

但換句話說,如果能在語音助手上實現類似 ChatGPT 理解復雜信息的能力,Siri 和小愛同學是不是就能重獲新生?

至少很多人已經開始嘗試。

個人開發者的嘗試

ChatGPT 出現後不久,互聯網上其實就有一大堆的新想法,聲量最大的一個是改變“搜索”,如今已經成為搜索引擎巨頭的共識,微軟必應已經在測試,Google和百度也提前進行預告。而另一方面,也有不少人在驚嘆於 ChatGPT 的自然語言溝通能力之餘,期望會推出語音助手版本的 ChatGPT,替代掉目前不堪一“談”的語音助手。

在今年又一輪爆發之後,盡管我們還是沒看到 OpenAI 或者微軟推出對應的語音助手版,但已經有開發者進行大量的嘗試。


xiaogpt,圖/GitHub

在全球最大的代碼托管平臺 Github 上,就有開發者嘗試將 ChatGPT 接入小愛同學,Star 數已經達到 1.3k。據項目介紹,隻要有 ChatGPT 的賬號、小愛音箱、正常連接 ChatGPT 的網絡以及 python 3.8+,人人都可以在小愛音箱上使用“ChatGPT 版小愛同學”。

原理上很簡單,喚起小愛同學後,以“幫我”開頭詢問的問題會自動以文本形式發送一份給 ChatGPT,同時會屏蔽小愛同學原本的回答,替換成“正在問 GPT,請耐心等待”,而 ChatGPT 生成的文本則會被小愛同學通過 TTS(語音合成技術)進行語音回答。

從開發者的顯示,整個過程足夠流暢,實際回答也遠超小愛同學原本的“智力”。(具備條件可搜索 GitHub 項目“xiaogpt”)


演示,圖/YouTube

不僅是小愛同學,另一位更為大眾調侃的“智障”語音助手——Siri,實際上更早就被開發者嘗試接入 ChatGPT。

圍繞 Siri 其實有不少嘗試,其中國內開發者@Yue-Yang 最近就以“快捷指令”形式連接 Siri 和 ChatGPT,讓 Siri 變成真正的 AI 聊天機器人。在 GitHub 或者“小眾軟件”上你都能找到對應的快捷指令——智能聊天,不過使用條件是需要申請 OpenAI 的付費 API。

“ChatGPT Siri”在原理上與“xiaogpt”類似,利用 OpenAI 的 API(應用程序接口)和 iOS 的特性,先將語音指令轉換為文本再傳遞給 ChatGPT,收到回答後再讓 Siri“讀”出來。在 B 站上,通過搜索“ChatGPT Siri”可以查看對應的。


ChatGPT Siri,圖/GitHub

當然,以上兩個項目都是個人開發者的嘗試,也包括其他類似的項目,不管是使用體驗還是上手門檻,都並不適合普通用戶。考慮到語音助手的技術、產品和生態,大公司的入場很可能降低門檻、提高整體的使用體驗。

問題在於意願和能力,很多公司其實也看到站在 ChatGPT 的“肩膀”上重新打造語音助手的可能性,但在全球范圍內,真正同時手握 AI 能力和語音助手背後生態的公司總共也就那幾傢。

巨頭的入場,不遠

與搜索一樣,ChatGPT 不可能直接取代現有的語音助手。一方面語音交互的優勢在於直接、易上手,很多任務通過觸控、文字輸入等方式不僅繁瑣、更耗時間,同時對於老人、小孩等用戶也偏於復雜,自然的語音交互則能比較輕松地實現。另一方面,ChatGPT 並不能對現實層面進行直接幹預,比如我們用 Siri 或者小愛同學操控空調、掃地機器人等。

ChatGPT,或者說生成式 AI 更大的價值在於通過強大的自然語言理解和溝通能力,來改善語音助手的使用體驗。


小愛同學 5.0 發佈現場,圖/小米

過去我們總抱怨 AI 太笨,要麼答非所問,要麼幹脆就是“我沒有明白”,基本幾輪對話就會感到心累,轉向對功能性的需求,比如天氣、問題查詢、智能傢居操作等。相反,ChatGPT 的對話能力則基本不用擔心,盡管可能會有錯誤信息,但至少不會像 Siri 和小愛同學那樣溝通成本太高。這也是多年的發展停滯之後,語音助手的關鍵機會所在。

2 月底,微軟在推出支持 AI 對話的新必應之後,又支持 Android 和 iOS 版本,並且在 AI 對話中第一次增加語音對話功能,用戶如果使用語音開啟對話,新必應也會使用語音回應。不過就現在而言,新必應的語音對話功能還僅限於對話,並不能用來進行一系列操作,比如在手機上喚起某個系統或應用的功能,也不支持設置為默認的語音助手。


語音功能加入,圖/微軟

此外,微軟自傢的 Windows 平臺也還未支持,目前為止尚未流出 Cortana 或其他新語音助手加入類 ChatGPT 能力的消息。

而更早些時候,小度官方在 2 月初宣佈,AI 語音助手小度將在未來融合百度文心一言的全面能力,同時在此基礎上還將打造針對智能設備場景的人工智能模型“小度靈機”並應用到小度全系產品。而據小度官方數據,搭載小度的智能設備已經進入 4000 萬戶傢庭。

當然,按照百度此前的規劃,文心一言要在本月才上線測試,距離小度全面接入文心一言的顯然還需要一段時間。

另一方面,Google也早早看到這一點。2021 年的 I/O 大會上,Google就首次宣佈將 LAMDA 大語言模型的對話能力整合入 Goolgle Assistant、搜索和 Workspace。今年 2 月,Google推出類 ChatGPT 的聊天機器人 Bard 之後,接入 Google Assistant 似乎也是題中應有之義,包括 9TO5Google、《連線》雜志也認為Google應該這麼做。

就像人人都知道語音助手的“蠢”,所有人也看到 ChatGPT 讓語音助手們至少在理解人類語言和對話上“變聰明”的很大可能。


“賈維斯,有時在你學會走之前得先跑起來”,圖/《鋼鐵俠》

過去我們都暢想過,有一個數字語音助手可以在日常生活中幫我們解決各種需求,就像《鋼鐵俠》裡的賈維斯,現實是 Siri 和小愛同學們距離聽懂人類的話還差很遠,充斥著各種“不明白”“聽不懂”。

的確,現實世界的技術還趕不上科幻世界的想象很正常,但 ChatGPT 背後強大的對話語言能力,無疑可以讓語音助手們能夠更流暢地與我們對話,讓我們更感覺在對話的是一個“智商在線”的 AI 助手,而非對牛彈琴。而對於智能音箱和智能傢居廠商,這也意味著更高的用戶粘性和使用率。

更或許,當 AI 越來越聰明並理解人類,智能傢居乃至物聯網的未來也會隨之發生巨變。


相關推薦

2023-03-30

隨著ChatGPT逐漸滲透進各行各業、展現出各種用途,如今又闖入“金融圈”。本月發表的一篇韓國學術論文確定,OpenAI的ChatGPT可以作為投資組合管理的有效助手。首爾國立大學的HyungjinKo和JaewookLee表示,雖然ChatGPT不能像人類那樣

2023-03-07

敗。而造成NaDELLa對語音助手不再滿意的重要原因就在於ChatGPT。自從該人工智能應用在市場上大獲成功後,微軟將大量資源傾斜到ChatGPT和下一代GPT-4模型的開發中。新歡之下,舊愛自然隻能靠邊。一年還比一年笨的Siri微軟的Cortan

2023-03-16

urkey表示,蘋果語音助手Siri不可能像OpenAI旗下聊天機器人ChatGPT那樣強大。John說,Siri能夠通過從數據庫中提取內容來回答天氣、播放歌曲等簡單的問題或指令,但能理解的請求數量有限,要想豐富內容必須要往數據庫添加新詞語

2023-06-03

手機品牌傳音Infinix即將在NOTE 30系列手機上推出內核基於ChatGPT打造的新語音助手。該語音助手可實現流暢對話和連續回答,被稱為“極為先進”。傳音是一傢專註於印度等海外市場的公司,旗下擁有多個手機品牌、數碼配件品牌

2023-09-26

快科技9月26日消息,OpenAI宣佈給聊天機器人ChatGPT增加語音交談的功能。這將給谷歌、蘋果等巨頭在智能語音助手領域帶來沖擊。據悉,ChatGPT可以用五個角色”來回答用戶的查詢,與Alexa和Siri等語音助手相比,它的語氣聽起來也

2024-01-11

品展覽會CES上,大眾汽車將展示首批人工智能大語言模型ChatGPT和IDA語音助手相結合的車型。據悉,該車型支持車主通過語言與ChatGPT互動。且大眾表示,從2024年二季度開始,大眾汽車將成為首個標配ChatGPT功能的量產車品牌。據

2023-05-20

天貓精靈智能眼鏡也能夠像朋友一樣對答如流。事實上,ChatGPT類產品實現語義理解最快延伸出的場景,首先是文字,然後是圖像和語音,而考慮到語音輸入較文字輸入的便捷性和實用性,智能音箱、智能眼鏡、智能耳機等擁有

2023-03-07

,所有都不行。如今,全世界的目光都集中在OpenAI旗下的ChatGPT這類生成式AI對話機器人上,微軟已經走在前端,並率先將其融入Edge瀏覽器、Bing搜索、微軟編輯器等,據說立項研發的Windows 12系統中,將更多出現ChatGPT這種聰明AI的

2024-06-28

zure OpenAI服務合作,計劃從今年7月起為約200萬輛汽車接入ChatGPT技術,以提升車輛的語音控制功能。自2021年起生產的配備第三代模塊化信息娛樂系統(MIB 3)的奧迪車型將通過ChatGPT實現更自然的語音交互,允許車主在駕駛時使用

2024-03-23

出,可能用於互動媒體、遊戲或其他應用中。這個目前在ChatGPT客戶端也有,就是用語音響應用戶輸入。機器學習基礎的自然語言和語音處理軟件:涉及使用機器學習技術進行自然語言和語音的處理、識別和分析的軟件。多語言

2024-02-19

放式助手能夠充分利用新興的GenAI技術,特別是像OpenAI的ChatGPT這樣的大語言模型。而BUD-E 的目標就是可以充分調用大語言模型的技術,讓語音助手可以使用更加自然的語音模式和人類用戶進行對話。LAION 表示,他們將確保 BUD-E

2023-09-26

快科技9月25日消息,近日OpenAI宣佈推出新版ChatGPT,增加兩項新功能:語音輸入和圖像輸入。據OpenAI稱,新功能將在未來兩周內向ChatGPT Plus訂閱用戶推出,其他人也將很快”能夠使用這些功能。語音輸入功能類似於手機上的語音

2024-04-01

能夠依據用戶提出問題來給出答案。而近年,隨著OpenAI的ChatGPT及其他競爭對手出現之後,聊天機器人現在更加先進,它們基於生成式人工智能的技術,能夠處理更復雜的查詢,並以文本、圖片甚至視頻的形式生成回應。註入新

2023-09-26

,美國人工智能研究公司OpenAI宣佈,其AI聊天機器人工具ChatGPT現在可以“看、聽、說”,這暗指這款廣受歡迎的聊天機器人可以同時接收圖像和語音輸入,並通過語音對話進行回復。ChatGPT是OpenAI於2022年11月30日推出的一種新型AI