聲明:本文來自微信公眾號“科技新知”(ID:kejixinzhi),作者:王思原,,授權站長之傢轉載發佈。
大模型時代下的應用革命正在加速到來。
今年以來生成式AI與大模型的研究與應用進展高潮迭起,4月初天貓精靈一個接入阿裡大語言模型通義千問的個性化DEMO,徹底點燃智能終端市場。更擬人的對話方式、更有情感的交互能力、人格化標簽,打破智能終端一度難以尋找新想象力的僵局。
然而就在近日,網上一款研發中的AIGC新型硬件demo——天貓精靈智能隨身眼鏡又引起我們的關註。視頻中可以看出,雖然外觀、重量上該眼鏡與普通眼鏡相差無二,但有千問大模型樣機的加入使其能夠“才思敏捷”,骨傳導技術的加持也建立一個相對私密對話環境。
例如UP主在吃飯時問道,“我好想吃面,可是我最近在健身,淀粉不能攝入過量怎麼辦?”天貓智能眼鏡迅速給出具體建議,“可以吃一些低熱量面食,蕎麥面、意大利面”;此外,後續UP在日常環境下與其交流愛好、遊戲時,天貓精靈智能眼鏡也能夠像朋友一樣對答如流。
事實上,ChatGPT類產品實現語義理解最快延伸出的場景,首先是文字,然後是圖像和語音,而考慮到語音輸入較文字輸入的便捷性和實用性,智能音箱、智能眼鏡、智能耳機等擁有語音交互能力的場景,可能會最先受益。
如果從場景倒推的話,更垂直的終端產品,也能在更垂直的大模型加持下,用更低的成本帶來更專業、更個性的體驗。而在垂直之下,“微調模型+智能終端”的打法,也將會成為應用升級的新風向。
個性化大模型升溫
毋庸置疑,在行業共同作用下,大模型在通識任務上的表現越來越出色,基於超大規模語料訓練的大模型在知識評測等任務上超越人類平均水平。以ChatGPT等為代表的大模型出現,更讓人切身感受到AI的智能水平。
然而這種以廣義理論框架搭建、公用數據訓練出的通用大模型,對於普通用戶來說,在使用時也缺少個性,有時候更像是一個問答機器,而非像朋友一樣互相交流。
在主流通用大模型的基礎之上註入專業化、個性化是一個重要的探索方向,個性化大模型也逐漸成為“大模型時代”的另一種不同玩法。加入人格化的標簽、融入更加細分領域的數據後,一個微調大模型會變得更加獨特有趣。
例如在辦公場景中,戴上眼鏡便可以通過語音命令操作電子郵件、日程安排,當不清楚文檔內容時,還可通過詢問智能眼鏡口頭回答問題;在戶外露營時,遇到陌生物種時,可以通過語音描述,得到鑒定和解說。甚至在開車外出時,可以通過眼鏡來尋找目的地並且導航路線。
另外,這款眼鏡本身是一個骨傳導眼鏡,技術核心在於用一種新的震動發聲裝置,采用振子專利技術,搭配貓耳算法,讓設備不入耳就能聽到聲音,並且能夠有更小噪音、更低失真的聲音表現。
目前在實驗環境下加入千問大模型demo,大模型在進行微調後,就能夠成為交互更加流暢智能的個性化隨身AIGC終端,可以支持佩戴者和眼鏡隨時進行不間斷的語音交流,配合骨傳導的技術特點,形成完全私密的聲場。
“骨傳導+定制大模型”的組合不僅僅可以應用於眼鏡,也可以用於耳機、頭盔等穿戴設備中。這一定程度上也標志著AIGC硬件會逐漸走入更加個人化的、隨身的垂直使用場景中。
事實上,相對於“廣而泛”的ChatGPT,垂直GPT的發展優勢十分明顯。
個性化大模型多是以深度解決垂直領域問題為主,以產品開發為目的,即企業在自己擅長的領域開發一個專業版大模型,然後直接應用到自己的相關AI產品上,使該產品實現或增強某種功能。
並且從成本角度來看,個性化大模型是針對特定領域或行業進行優化,隻需利用該領域內的專業數據進行訓練,避免通用大模型數據采集的高成本和高難度。
錢學森在《系統工程論》提出這樣一個核心觀點,那就是做任何技術產品,都要從現有條件出發,不求單項技術的先進性,隻求總體設計的合理性,充分利用現有資源,各個子系統需要充分協作,服務於整體目標。
把這個理論放在如今的大模型上,一樣適用。大模型再厲害,也隻是一項技術,它必須應用到具體產品上,才能發揮最大作用。因此大模型並不是做得越大越通用就越好,而是應該基於產品,聚焦在某個需求上,合理開發和利用,進而實現大模型在產品中功能的最大化。
落地更快更真實
如果要說大眾對AIGC的終極幻想,那一定是人均一個賈維斯這樣的全能助手,這也是目前行業的終極目標。
雖然大模型技術打破AI難以用於不同領域的壁壘,加上多模態的快速發展,智能助理的發展方向一定是越來越全能,但不得不承認的是,科幻電影中的賈維斯離我們還很遙遠。
不過目前可以實現的是,利用個性化大模型具備的專業性、獨特性、定制性,微調出針對不同應用場景的智能助理,並且快速落地、快速應用,落地到消費端的產品上。
例如前不久爆火的接入千問大模型的Sound Pro,通過知識增強、工具增強、個性化對話增強、人類反饋強化學習,四個訓練步驟便實現“知識+情感+記憶+人設”統一體驗,在接入天貓精靈後能夠實現多輪流暢對答、符合人設的人格化表達、富有創意的隨機創作等能力,被稱為“鳥鳥分鳥”。這本質上是“個性化”大模型,能夠塑造特定的人格化特征,對“看法是什麼”、“喜歡吃什麼”等開放式問題作出符合自身“人設”的個性化回答。
比如問大模型“怎樣做一道美味的意大利面?”,設定為專業廚師的大模型可能會分享正宗的意大利面做法,例如使用哪種面粉、如何制作面團、如何制作醬汁等等;而一位素食主義者大模型可能會提供素食意大利面的做法,例如使用哪些蔬菜和豆類代替肉類等。
這些高可玩性與可用性,給語音交互註入前所未有的生命力,讓行業初步看到大模型所激發的交互躍遷。
當然,除以傢庭中心為入口的智能設備外,終端穿戴式AIGC產品想象力更為豐富。因為人類物理條件限制,在許多場景最合適的語音智能載體還是耳機或者鋼鐵俠那樣的眼鏡。除非腦機接口或其它新技術突破,目前語言依然是人類交流的最通用方式,也是與智能助理交流的最佳方式。
更聰明的交互、更豐富的終端
2021年以來,傳統智能音箱行業面臨需求下滑、創新不足的困境。出貨大跌的原因也不模糊,隨著消費者的認知回歸理性,交互模式機械化、產品嚴重同質化的智能硬件產品早已算不上新穎,且智能傢居的“入口”概念早已淡化。
用戶希望與智能音箱、手表等智能終端設備實現類似人與人之間的“對話式”交流,但多數設備無法理解復雜的語言場景,隻能實現播放音樂、天氣查詢、快遞查詢等簡單的功能,並且現階段沒能依靠技術或內容或某一特征打動更多消費者。
另外雖然眾多終端配備兒童模式、老人模式、青少年模式等個性化模式,但在實際使用中,除內容上的些許不同,其他方面並未像“鳥鳥分鳥”那樣真正的有個性。
方正證券認為,智能音箱需要更加“智能”,才能找到自己的獨特定位,得到長足發展,而ChatGPT這類生成式AI具有智能對話、多模態表達的支持,對於智能音箱等都是可以彌補缺陷的方案。
比如將這種個性化定制的大模型可能和圖像生成聯系在一起,激發更多潛能。如為每臺音箱、智能眼鏡等智能終端產品裝備一個虛擬數字人管傢,通過用戶的訓練掌握用戶的日常習慣,做到更私人、更個性。
行業的底層邏輯是產品周期,周期的強度取決於產品創新與痛點挖掘。目前行業處於庫存逐步去化、周期將起未起的拐點時刻。對於企業來說,當下已經過爭奪“入口”的階段,而大模型的爆發也促進軟硬一體的生態發展,所以,從實際體驗出發,尋找更聰明的交互、更豐富的AIGC終端形態,不拘泥於單個“入口”,才是未來各大廠商角逐的方向。
據不完全統計,目前除天貓精靈在深耕“大模型+智能硬件”外,百度旗下的小度科技也宣佈將融合文心一言,打造針對智能設備場景的人工智能模型“小度靈機”,並且應用到小度全系產品;科大訊飛也將其星火大模型落地應用層,融合進訊飛智能辦公本中。
在「科技新知」看來,“個性化大模型”有望成為引爆下一輪產品創新的關鍵,不僅僅是文本、語音交互,圖像、視頻甚至手勢動作都有望實現革新,而隨之帶來的便是,更多AIGC智能硬件的湧現,以及整個行業的二次爆發。