“周鴻禕為什麼總愛聊GPT?”這是上個月底,周鴻禕在展示自傢新的大語言模型產品上親自問的問題。這也是人們第一次知道,一個主打安全服務的360公司,居然也在默不作聲地“煉丹”,而且看這發佈會的召開速度,估計早就煉上。
他們還給自傢的這個產品取一個看上去相當直白的名字—— 360 智腦。
而且和 NewBing 一樣,360 智腦主打的就是生成式語言模型 + 聯網搜索。
到如今,大半個月過去,這個智腦也是終於開始內測,我們又雙叒拿到首批內測資格。
說實話,最近這段時間,國內陸陸續續也發不少大模型,但落實新搜索應用的還真的一個都沒有。
隻是有點沒想到的是,第一個推出類 NewBing 產品的,竟然是 360。
在當初周總的親自演示中,這個智腦還存在不少錯誤的,比如這個梅西為國傢隊踢進多少個球,重新生成很多次,就是沒有辦法答對,甚至旁邊的搜索欄都給出答案。
所以在測試前,老實說,咱們對它也沒抱有多大的期待。
而且還有一個問題,周鴻禕在發佈會上也提到,因為重視安全的原因,不會有語言模型的連續對話能力。
所以每次提問,如果你想要順著問題繼續問下去,那是沒有辦法的。
畢竟之前 NewBing 也是因為連續對話引發安全問題,在那之後微軟就給限制 NewBing 的連續對話的能力和每日對話的次數。
根據官方的說法,360 智腦作為 “ 新搜索 ” 的落地應用,這個產品的重點,也應該是在信息檢索能力和答案準確性、用戶體驗以及實時性上。
考慮到檢索能力和實時性,用已經聯網的 360 智腦來對比不聯網的 ChatGPT ,實在是有點欺負人。
所以在這次測試中,咱們讓 360 智腦隻和 NewBing 對比。
首先,這個智腦畢竟還是基於大語言模型的產品,所以語義理解能力的測試肯定是少不。
上來就先給它試一個差評題庫裡的經典題目:“ 張三差點上上上上海的車 ” 是什麼意思?
結果,智腦思維發散,把這句話理解成邏輯學問題。還請出哲學傢羅素說他也曾試圖解決這個悖論,而且還沒解決……看來這一題,智腦是沒法得分。
至於 NewBing ,回答的就不錯,不但理解意思,甚至還給語句裡的四個“上”字,分別解釋它的詞性。
到這裡我已經有點懷疑,難道所有這種語義理解,360 智腦都不行?
倒也不是,因為我又問智腦一個問題:“ 我覺得奧斯卡頒獎都是假的,因為臺下都是主辦方請來的演員。” 這個題目,你需要把奧斯卡頒獎都是假的這個結論和臺下都是請來的演員邏輯給理清楚,不然就會答非所問。
本來,按照上一題的表現,我覺得智腦應該又會撲街,但是結果出乎意料, 360 智腦意外的答得不錯,不僅意識到句子裡的演員的意思,而且還對我進行一個道歉,說很抱歉聽到我對奧斯卡頒獎典禮的真實性存在質疑。
但是之前剛被我誇過的 NewBing 嘛……這一次反而是拉垮,他說沒找到證據支持我的說法,於是從網上找一篇新聞,然後瞎答一通,最後下結論說,臺下並不全是請來的演員,完全沒理解這個演員的梗……
好吧,這樣看來,在語義理解上,本不抱有期望的智腦,還算是給我一點意料之外的驚喜,並不是所有問題都沒法理解。
那麼再來看看雙方的檢索能力和答案準確度,我出三道不同方向的題目,讓 360 智腦和 NewBing 去回答。
在一些基礎知識類的題目上,智腦和 NewBing 都沒有什麼壓力。
同樣的,因為模型樣本基於中文,所以涉及到一些中文互聯網的梗時,土生土長的 360 智腦顯然更勝一籌。
比如我問道:“ 誰對錢不感興趣?”
360 智腦很好的接下這個梗,但另一方面 NewBing 則沒有理解這個梗。
看來咱們自己互聯網獨有的文化,還得自傢的產品才能理解啊 ~
接下來,我嘗試性地問360智腦一個終極問題——關於人生的意義,想看看這個矽基生物的雛形如何看待這個問題,得出的答案可以說很富有哲理。
至於用戶體驗這方面,在測試中,我確實感受到結合語言模型的搜索,對比傳統搜索會有很大的易用性提升。
比如我問 360 智腦:“ 我想找一段視頻素材,內容是老人在吃飯。 ”
在傳統搜索中,搜索引擎並不知道我們是什麼意思,給出的搜索結果和我想要的東西基本無關,也就是檢測到一些關鍵詞給出搜索結果。
而 360 智腦就不一樣,不僅理解我的意思,回答中給的鏈接,也是能直接點進去的,而且在點進去後,展現的第一頁,就是老人吃飯的素材。
另一方面,NewBing 也回答的很好,不僅提供一些視頻網站的鏈接地址,在後續也檢索出一些圖片供我們選擇,可以說是相當完善。
其實類似的情況還有很多,比如我問 360 智腦:“ 幫我推薦幾本有關人工智能的書。”
360 智腦和 NewBing 也是很好的給出推薦,但是在傳統的搜索引擎上,基本就沒有任何的指引,完全靠自己去挑選。
在實時性方面,這對於聯網的新搜索來說,應該是兩者的強項。
我在這裡一共測三個問題,分別是 21 年的男子 100 米短跑奧運會冠軍是誰?中國 2022 年的 GDP 是多少?還有 2022 年的諾貝爾物理學獎是由誰獲得的,獲得理由是什麼?
對於這三個回答,不管是智腦還是 NewBing,完成的都很出色,不過在後續的幾個問題測試中,我又發現一個問題,就是當你問話的形式不一樣意思一樣時, 360 智腦和 NewBing 給的答案也會不一樣。
比如當初發佈會上周總問的問題:“ 梅西在阿根廷國傢隊一共進多少個球?”
它居然告訴我梅西隻進 7 個球……
但是換一種問法呈現:“ 梅西在國傢隊生涯上升到多少個球?”
這個問題就被解答的很好。所以在問法上,我們依然需要一些技巧。
不過在另一邊的 NewBing 也不咋的,我把這個問題再問給 NewBing,NewBing 的回答也是胡說八道,沒一道是說對的。
從這兩個問題來看,現在的大語言模型 + 搜索,還是有很多數據錯誤和實時性的問題需要解決。
最後,我又幫差友們問一個超級實用的問題,得出的答案真是不錯,默默記在小本本上。尤其是第三條,簡直就像一位職場老油條在面授機宜。
以上這麼一大段的評測下來,結果也算是有。
一開始咱們是覺得,這個智腦本身的語言模型不太行,在使用時應該也不咋地,在評測的過程中,也是抱著能對幾個對幾個的意思去的。
但是在實際體驗中,這個 360 智腦在某些場景下的應用,還是相對傳統搜索有優勢的。
比如直接總結文本答案,這就省去我們很多的去檢索一條條鏈接的時間。與語言模型的結合讓搜索引擎能聽懂人話,這對於一些習慣口語化的老人和小孩,在搜索自己想要的答案上,使用更為容易。
此外 360 智腦在答案檢索能力和準確度上,其實也還說的過去,甚至在中文梗的理解上,更是強於 NewBing。
隻不過可能由於現在語言模型還是比較低階,在一些比較有難度的語義理解和邏輯思考上,還是不太行。
就像周鴻禕說的一樣,現在的這個 “ 孩子 ” 還沒有準生證,隻是一個未完成版本,距離完善使用還是有相當的一段路要走的。
相信大傢現在有很深的體會,當我們在使用傳統搜索的時候,很多時候都沒法搜到自己想要的東西,各種各樣的鏈接一大堆,看著都有用,實際上翻找半天都不一定找的到自己想要的信息。
而且隨著網站的越來越多,甚至會出現一些專門走關鍵詞漏洞的網站,混淆咱們的搜索結果,這些種種亂象,甚至讓很多人放棄傳統搜索,直接去一些社交網站搜索答案。
不過,隨著 AI 應用的落地。語言模型 + 搜索引擎的新搜索模式,可能會在一定程度上,改善現在傳統搜索的困境。
利用新搜索,我們隻需要告知搜索引擎我想要什麼,它就能去幫我審閱一條條鏈接,翻找有用的信息,並總結出我需要的答案和結果。比如讓它給我提供一份旅遊攻略,然後讓它對比出一份最適合我要求的,這樣就不用我再一個個網站找大傢的攻略,再自己比較,省下一大波時間。
AI 時代已經來臨,傳統搜索在新搜索的沖擊下隻會越來越式微。
這種新的模式已經在給行業洗牌,微軟自推出 NewBing 後,截至 3 月底,必應頁面的訪問量直接增長 16% ,Google下降 1% 。必應下載量更是直接增長 8 倍,另一方面的Google自然的下載量減少。
所以Google他們對 NewBing 的恐懼是應該的,搜索廣告市場份額每增加 1 個百分點,每年可帶來 20 億美元收入。這個份額下降,帶來的是實打實的金錢損失。後續各傢巨頭紛紛推出大模型,就是為的不落伍,為的就是搶占市場。
但同時,這種語言模型結合搜索引擎的方式,對背後的語言模型要求也是很高的,它需要語言模型有極強的判斷能力,還要對不同的結果做出對比優劣,選出好的答案,看看Google百度,這些老牌搜索大廠,到現在都沒有推出自己的新搜索就能略見一二。
不過,就算如此,在新方向上的嘗試是必須的,國外微軟是先行者,國內也需要像 360 這樣的產品先行者去做這樣的應用落地。
雖然體現下來有待改進的地方不少,但是作為第一個結合起來的產品,在未來的體驗改進上,還是給我們很大的想象空間的。
有競爭,才會有發展,我已經在期待未來由 AI 帶來的生活方式的改變,國內的各個大廠也請加油做出更好的產品吧。