劃重點:
車載語音智能化的短板在“語義理解”,AI圈大火的ChatGPT對車載語音智能化加成明顯。
ChatGPT上車,主要還是成本的問題,這背後包括使用成本、雲服務成本、針對性的訓練成本。
雲知聲董事長CTO_梁傢恩對TechWeb表示,ChatGPT 技術肯定會在車載、傢居等智能交互應用有建樹,但需要結合應用場景針對性優化。
思必馳汽車事業部產品總監葛付江對TechWeb表示,新技術發展一定會存在商業落地的挑戰,AI技術創新要結合場景應用,類ChatGPT在車載的應用會在算力優化、雲和端智能融合技術等方面形成挑戰。
ChatGPT的火,一下子就燒到車載領域。
眾所周知,語音交互是車內最簡潔、最人性化、最安全的交互方式,也是未來最主要的車內交互方式。隨著AI和硬件性能的增強,語音交互是未來汽車的絕對主流。語音交互主要是車載自然語音識別與語音助手,也可以簡單地說是NLP和NLU技術。既然是NLP,那麼理應是最近在AI圈大火的ChatGPT的用武之地。事實真的如此嗎?
車載語音智能化,短板在“智能”
從技術角度看,智能語音交互主要有三大重點,分別是識別、理解、執行。在目前提供解決方案的廠商中,識別部分已經趨於成熟,識別率可以達到90%以上,有的識別率已達95%左右。行業的痛點主要聚焦於“理解”部分,大部分的車載語音交互系統在“理解”上並不智能,導致整個系統功能單一、命令詞單一。
那麼問題來,如何讓車載語音交互系統像人一樣理解我們的話語?
這就涉及到NLP(自然語言處理)技術,它們對於用戶輸入語音的理解與本身的場景策略、多輪對話有著密不可分的關系,並直接決定著車載語音交互系統的智能化程度。而提及NLP,正中近期大“火”的ChatGPT的下懷,是ChatGPT的用武之地。
歷史上,NLP的發展有幾個關鍵節點,其中,最重要的兩個當屬2012年和2018年。
2012年,深度學習開始應用於NLP領域;2018年開始,以谷歌BERT為代表的語義表示預訓練取得巨大突破,橫掃各大NLP任務基準;2020年5月,OpenAI斥巨資打造的GPT-3一經發表就引發行業轟動,這一版本的模型有1750億參數量,被稱為NLP領域的最強AI模型。
而最近大“火”的ChatGPT是基於大規模預訓練語言模型(GPT-3.5),借助其強大的語言理解和生成能力,通過在人工標註和反饋的大規模數據上進行學習,從而讓預訓練語言模型能夠更好地理解人類的問題並給出更好的回復。
思必馳汽車事業部產品總監 葛付江對TechWeb表示,ChatGPT目前是以文本交互機器人的形式呈現的,適用多種文本處理任務,常用於智能問答和對話、文本創作等領域;車載語音以對話交互為主,多用於進行例如“導航去XXX?打開音樂”有明確指令的行動,“語音助手”用高度擬人化的語音輸出來回應車主訴求。車載語音交互用於解放駕駛員雙手,聚焦其註意力帶來更安全、便利的駕駛體驗。未來車內有ChatGPT技術的應用,不僅是完成固定指令的任務型對話,車、人能進行更高效、更直接、高靈活度的出行、知識和閑聊交流;
“ChatGPT”的爆火讓市場看到認知智能應用潛力。ChatGPT在推理和學習能力上優勢明顯,不僅可以用於理解和對話,更可以通過上下文交流和自我學習,來實現輔助創作和知識進化。這些能力同樣適用車載語音交互領域,融合對話智能技術、深度學習大模型技術、工程化能力、大數據的潛力,帶來更流暢、更有效的響應。在車內有限的空間,結合聲場定位和多說話人判斷,提升多角色、長上下文對話的邏輯一致性;更可以拓展滿足方言、外語的統一識別和對話需求,快速實現更靈活、自由、個性化的交互。”葛付江說道。
從目前諸多對於ChatGPT的使用(包括我們自己),我們認為,僅就車載智能語音的NLP,目前它應該是最好和最智能的。這是否意味著,其就一定會在短期內應用在車載智能語音系統中嗎?
市場空間有限,產業鏈、市場挑戰猶存
眾所周知,一個新的技術或者產品能否最終落地得到規模的應用,除技術因素外,還會受到其所處產業或者市場的產業鏈、市場競爭強弱、市場空間等諸多因素密切相關。
具體到車載智能語音系統,雖然ChatGPT在“智能”上表現出色,但其在整個產業鏈條中比較偏後段,需要依賴很長的前端鏈條,比如信號處理、語音識別、文字輸出之後才會用到它,前端鏈條上的因素對後端流程都會產生影響,例如信號處理會影響語音識別,語音識別如果出錯就會影響NLP的判斷,鏈條上每個模塊都需要提高可靠性,才能保證最後出來的整體結果可靠。這意味著,ChatGPT在“智能”能力的輸出上,並非完全取決於自身的能力,其產業鏈上任何一個環節都會對其造成正或負的影響。
雲知聲董事長CTO_梁傢恩對TechWeb表示,ChatGPT 技術肯定會在車載、傢居等智能交互應用有建樹,但需要結合應用場景針對性優化,提高體驗並降低服務成本等。
“車載等智能交互應用場景有很大體驗升級空間,但目前ChatGPT是一個超大模型,如何保持體驗情況下,顯著降低服務成本是個關鍵問題“。
而從市場競爭的強弱看,據相關統計,目前車載語音系統市場除已經被科大訊飛和Cerence壟斷,且它們在此領域具有多年的產品和合作經驗外,還有許多規模不同的企業參與其中,更為重要的是,目前車載語音市場已經遇到增長的天花板,這使得在競爭激烈的同時,就連科大訊飛和Cerence都開始除語音之外,開始走車內多模態交互,雲服務集成等服務的路線,以綜合實力提升競爭力。作為後來者的ChatGPT一旦決定進入車載智能語音市場勢必會面臨強大對手的挑戰。
葛付江補充稱,從成本來看,ChatGPT的研究需要巨大的資金和人才投入,他們需要超算平臺、算法、數據等各核心力量支撐,這些都是成本。巨頭平臺公司目前來看具備這方面的優勢,對於科技企業可以更多從場景融合入手,尋求創新機會。
從商業化場景看,目前chatGPT更適用於基於一定背景知識的創作型產業,以及剛需AIGC的場景、SOP(標準作業程序)的行業,比如智能寫作、智能客服、文檔管理、代碼生成、甚至遊戲NPC等。
班門弄斧主理人孫永傑指出,從單純的車載語音市場看,其市場空間並不大,這點從已經壟斷該市場的科大訊飛和Cerence的財報可見一斑。這種情況下,能否吸引成本高昂的ChatGPT進入也是個未知數。畢竟ChatGPT訓練成本高昂,且其所屬的Open AI依然處在虧損當中。
未來仍可期,合作和開放API或是更好選擇
如前述可知,ChatGPT隻是在車載智能語音的NLP環節具備優勢,雖然ChatGPT據稱也在進行語音識別和合成上進行AI訓練,希望未來可以借此進入車載智能語音市場。但鑒於ChatGPT隻是文本交互方式,即便是進行語音識別和合成的AI訓練,最後效果如何?能否超過目前市面上存在和已經應用的車載智能語音系統仍是未知。
當然,鑒於ChatGPT強大的能力,TechWeb認為未來的市場空間會隨著智能汽車應用場景的不斷擴大,ChatGPT找到自己真正的用武之地並非沒有可能。更值得期待的是,除智能汽車本身外,站在整個汽車產業的高度,其未來在汽車設計、制造等領域的應用都充滿想象的空間。
葛付江表示:“ChatGPT上車的應用具體如何發展,目前形勢還不明朗。可預見的是,在車載場景下,大模型技術學習能力優勢明顯,通過強化上下文理解能力、思維鏈推理、增強指令學習,來實現持續學習,達成可以“回答類似問題”的效果,除指令需求外,日常的知識和閑聊對話交流可以更加流暢和有用。總體來說,技術會向統一多模態交互發展,強化語音、文本、圖像等深度融合的多模態交互技術,形成“汽車大腦”, 應對車內、公共空間等復雜場景的交互需求。”
小鵬技術團隊對TechWeb表示,ChatGPT的語言組織能力很強,以及知識庫也比較龐大,涉及領域更廣,所以可能會給用戶的體驗更好更智能。至於我們未來要 不要引入這個技術接口,還是做類似技術的融合開發,我們也在進一步探索~
基於此,TechWeb認為,合作應該是ChatGPT切入車載智能語音市場最經濟和有效的方式。所謂各取所長就是這個道理。實際的情況是,近日國內集度汽車宣佈將融合百度文心一言的全面能力,打造全球首個針對智能汽車場景的大模型人工智能交互體驗,證明此模式的可行性。
此外,將自己最擅長的能力通過API開放給第三方,僅輸出自身最擅長的能力也不失為明智的選擇。