360智腦首發上手實測,到底是個啥水平?


“周鴻禕為什麼總愛聊GPT?”這是上個月底,周鴻禕在展示自傢新的大語言模型產品上親自問的問題。這也是人們第一次知道,一個主打安全服務的360公司,居然也在默不作聲地“煉丹”,而且看這發佈會的召開速度,估計早就煉上。


他們還給自傢的這個產品取一個看上去相當直白的名字—— 360 智腦。

而且和 NewBing 一樣,360 智腦主打的就是生成式語言模型 + 聯網搜索。

到如今,大半個月過去,這個智腦也是終於開始內測,我們又雙叒拿到首批內測資格。

說實話,最近這段時間,國內陸陸續續也發不少大模型,但落實新搜索應用的還真的一個都沒有。

隻是有點沒想到的是,第一個推出類 NewBing 產品的,竟然是 360。

在當初周總的親自演示中,這個智腦還存在不少錯誤的,比如這個梅西為國傢隊踢進多少個球,重新生成很多次,就是沒有辦法答對,甚至旁邊的搜索欄都給出答案。


所以在測試前,老實說,咱們對它也沒抱有多大的期待。

而且還有一個問題,周鴻禕在發佈會上也提到,因為重視安全的原因,不會有語言模型的連續對話能力。

所以每次提問,如果你想要順著問題繼續問下去,那是沒有辦法的。

畢竟之前 NewBing 也是因為連續對話引發安全問題,在那之後微軟就給限制 NewBing 的連續對話的能力和每日對話的次數。


根據官方的說法,360 智腦作為 “ 新搜索 ” 的落地應用,這個產品的重點,也應該是在信息檢索能力和答案準確性、用戶體驗以及實時性上。

考慮到檢索能力和實時性,用已經聯網的 360 智腦來對比不聯網的 ChatGPT ,實在是有點欺負人。

所以在這次測試中,咱們讓 360 智腦隻和 NewBing 對比。

首先,這個智腦畢竟還是基於大語言模型的產品,所以語義理解能力的測試肯定是少不。

上來就先給它試一個差評題庫裡的經典題目:“ 張三差點上上上上海的車 ” 是什麼意思?

結果,智腦思維發散,把這句話理解成邏輯學問題。還請出哲學傢羅素說他也曾試圖解決這個悖論,而且還沒解決……看來這一題,智腦是沒法得分。


至於 NewBing ,回答的就不錯,不但理解意思,甚至還給語句裡的四個“上”字,分別解釋它的詞性。


到這裡我已經有點懷疑,難道所有這種語義理解,360 智腦都不行?

倒也不是,因為我又問智腦一個問題:“ 我覺得奧斯卡頒獎都是假的,因為臺下都是主辦方請來的演員。” 這個題目,你需要把奧斯卡頒獎都是假的這個結論和臺下都是請來的演員邏輯給理清楚,不然就會答非所問。

本來,按照上一題的表現,我覺得智腦應該又會撲街,但是結果出乎意料, 360 智腦意外的答得不錯,不僅意識到句子裡的演員的意思,而且還對我進行一個道歉,說很抱歉聽到我對奧斯卡頒獎典禮的真實性存在質疑。


但是之前剛被我誇過的 NewBing 嘛……這一次反而是拉垮,他說沒找到證據支持我的說法,於是從網上找一篇新聞,然後瞎答一通,最後下結論說,臺下並不全是請來的演員,完全沒理解這個演員的梗……


好吧,這樣看來,在語義理解上,本不抱有期望的智腦,還算是給我一點意料之外的驚喜,並不是所有問題都沒法理解。

那麼再來看看雙方的檢索能力和答案準確度,我出三道不同方向的題目,讓 360 智腦和 NewBing 去回答。

在一些基礎知識類的題目上,智腦和 NewBing 都沒有什麼壓力。


同樣的,因為模型樣本基於中文,所以涉及到一些中文互聯網的梗時,土生土長的 360 智腦顯然更勝一籌。

比如我問道:“ 誰對錢不感興趣?”

360 智腦很好的接下這個梗,但另一方面 NewBing 則沒有理解這個梗。


看來咱們自己互聯網獨有的文化,還得自傢的產品才能理解啊 ~

接下來,我嘗試性地問360智腦一個終極問題——關於人生的意義,想看看這個矽基生物的雛形如何看待這個問題,得出的答案可以說很富有哲理。


至於用戶體驗這方面,在測試中,我確實感受到結合語言模型的搜索,對比傳統搜索會有很大的易用性提升。

比如我問 360 智腦:“ 我想找一段視頻素材,內容是老人在吃飯。 ”

在傳統搜索中,搜索引擎並不知道我們是什麼意思,給出的搜索結果和我想要的東西基本無關,也就是檢測到一些關鍵詞給出搜索結果。


而 360 智腦就不一樣,不僅理解我的意思,回答中給的鏈接,也是能直接點進去的,而且在點進去後,展現的第一頁,就是老人吃飯的素材。


另一方面,NewBing 也回答的很好,不僅提供一些視頻網站的鏈接地址,在後續也檢索出一些圖片供我們選擇,可以說是相當完善。


其實類似的情況還有很多,比如我問 360 智腦:“ 幫我推薦幾本有關人工智能的書。”

360 智腦和 NewBing 也是很好的給出推薦,但是在傳統的搜索引擎上,基本就沒有任何的指引,完全靠自己去挑選。



在實時性方面,這對於聯網的新搜索來說,應該是兩者的強項

我在這裡一共測三個問題,分別是 21 年的男子 100 米短跑奧運會冠軍是誰?中國 2022 年的 GDP 是多少?還有 2022 年的諾貝爾物理學獎是由誰獲得的,獲得理由是什麼?

對於這三個回答,不管是智腦還是 NewBing,完成的都很出色,不過在後續的幾個問題測試中,我又發現一個問題,就是當你問話的形式不一樣意思一樣時, 360 智腦和 NewBing 給的答案也會不一樣。


比如當初發佈會上周總問的問題:“ 梅西在阿根廷國傢隊一共進多少個球?”

它居然告訴我梅西隻進 7 個球……

但是換一種問法呈現:“ 梅西在國傢隊生涯上升到多少個球?”

這個問題就被解答的很好。所以在問法上,我們依然需要一些技巧。


不過在另一邊的 NewBing 也不咋的,我把這個問題再問給 NewBing,NewBing 的回答也是胡說八道,沒一道是說對的。


從這兩個問題來看,現在的大語言模型 + 搜索,還是有很多數據錯誤和實時性的問題需要解決。

最後,我又幫差友們問一個超級實用的問題,得出的答案真是不錯,默默記在小本本上。尤其是第三條,簡直就像一位職場老油條在面授機宜。


以上這麼一大段的評測下來,結果也算是有。

一開始咱們是覺得,這個智腦本身的語言模型不太行,在使用時應該也不咋地,在評測的過程中,也是抱著能對幾個對幾個的意思去的。

但是在實際體驗中,這個 360 智腦在某些場景下的應用,還是相對傳統搜索有優勢的。

比如直接總結文本答案,這就省去我們很多的去檢索一條條鏈接的時間。與語言模型的結合讓搜索引擎能聽懂人話,這對於一些習慣口語化的老人和小孩,在搜索自己想要的答案上,使用更為容易。


此外 360 智腦在答案檢索能力和準確度上,其實也還說的過去,甚至在中文梗的理解上,更是強於 NewBing。

隻不過可能由於現在語言模型還是比較低階,在一些比較有難度的語義理解和邏輯思考上,還是不太行。

就像周鴻禕說的一樣,現在的這個 “ 孩子 ” 還沒有準生證,隻是一個未完成版本,距離完善使用還是有相當的一段路要走的。

相信大傢現在有很深的體會,當我們在使用傳統搜索的時候,很多時候都沒法搜到自己想要的東西,各種各樣的鏈接一大堆,看著都有用,實際上翻找半天都不一定找的到自己想要的信息。


而且隨著網站的越來越多,甚至會出現一些專門走關鍵詞漏洞的網站,混淆咱們的搜索結果,這些種種亂象,甚至讓很多人放棄傳統搜索,直接去一些社交網站搜索答案。

不過,隨著 AI 應用的落地。語言模型 + 搜索引擎的新搜索模式,可能會在一定程度上,改善現在傳統搜索的困境。

利用新搜索,我們隻需要告知搜索引擎我想要什麼,它就能去幫我審閱一條條鏈接,翻找有用的信息,並總結出我需要的答案和結果。比如讓它給我提供一份旅遊攻略,然後讓它對比出一份最適合我要求的,這樣就不用我再一個個網站找大傢的攻略,再自己比較,省下一大波時間。


AI 時代已經來臨,傳統搜索在新搜索的沖擊下隻會越來越式微。

這種新的模式已經在給行業洗牌,微軟自推出 NewBing 後,截至 3 月底,必應頁面的訪問量直接增長 16% ,Google下降 1% 。必應下載量更是直接增長 8 倍,另一方面的Google自然的下載量減少。


所以Google他們對 NewBing 的恐懼是應該的,搜索廣告市場份額每增加 1 個百分點,每年可帶來 20 億美元收入。這個份額下降,帶來的是實打實的金錢損失。後續各傢巨頭紛紛推出大模型,就是為的不落伍,為的就是搶占市場。

但同時,這種語言模型結合搜索引擎的方式,對背後的語言模型要求也是很高的,它需要語言模型有極強的判斷能力,還要對不同的結果做出對比優劣,選出好的答案,看看Google百度,這些老牌搜索大廠,到現在都沒有推出自己的新搜索就能略見一二。


不過,就算如此,在新方向上的嘗試是必須的,國外微軟是先行者,國內也需要像 360 這樣的產品先行者去做這樣的應用落地。

雖然體現下來有待改進的地方不少,但是作為第一個結合起來的產品,在未來的體驗改進上,還是給我們很大的想象空間的。

有競爭,才會有發展,我已經在期待未來由 AI 帶來的生活方式的改變,國內的各個大廠也請加油做出更好的產品吧。


相關推薦

2023-06-13

國內的技術已經基本趕上國際平均水平。在在6月13日的360智腦大模型應用發佈會上,三六零集團創始人周鴻禕表示:國內現在(AI大模型)你追我趕,不斷地相互激勵,縮小和全球領先技術的距離。原來我說(差距)有一年半、

2023-06-13

鳳凰網科技訊 《AI前哨》6月13日消息,360集團舉辦360智腦大模型應用發佈會。360集團創始人周鴻禕表示,國內(大模型)現在你追我趕,不斷地互相激勵,縮小和全球領先技術的差距。原來我說(差距)有一年半、兩年,我今天

2023-05-08

的差距至少有兩年。值得一提的是,周鴻禕在現場演示360智腦”時再次翻車:在詢問自己和俞敏洪誰的英語水平高時,360智腦避重就輕”,稱俞敏洪的英語水平在業內是出名的......”但未給出完整回答。對此,俞敏洪笑稱360智腦

2022-09-27

今晚AMD的銳龍7000系列處理器評測解禁,我們在首發評測中已經詳細測試這代處理器的性能水平,單核及多核相對上代銳龍5000提升很大。除CPU性能之外,銳龍7000還有個小問題值得關註下,那就是這代集成iGPU核顯單元,是5年來非A

2023-11-05

日前,360智腦官方宣佈,360大模型“奇元大模型”通過備案落地。據解,“360智腦大模型”在今年9月已獲批面向公眾開放,至此,360成為國內首傢兩個大模型均通過備案的科技企業。目前,360智腦大模型已全面接入360搜索、360

2022-08-22

遭遇理賠難的問題。那麼這個所謂的“ 車輛統籌 ”到底是個什麼玩意,為什麼能夠讓這麼多貨車司機上當受騙?其實這個“ 車輛統籌 ”差友們可以把它理解為:一種流行在貨車司機之間的互助措施。貨車司機們會統一

2024-03-29

三六零集團創始人周鴻禕在直播中透露,即將開源360智腦70億參數模型,支持360K即50萬字長文本輸入。“前段時間大模型行業卷文本長度,很快100萬字就是標配。我們打算將這個能力開源,大傢沒必要重復造輪子。定360k主要是為

2023-04-10

正式宣佈,基於360GPT大模型開發的人工智能產品矩陣“360智腦”率先落地搜索場景,將面向企業用戶開放內測。據解,企業用戶在PC端360搜索首頁申請並獲得測試資格後,可通過企業安全雲體驗使用。

2023-09-26

快科技9月25日消息,LG宣佈將批量生產用於筆記本電腦的17英寸可折疊OLED面板,這是繼2020年首次量產用於筆記本電腦的13.3英寸可折疊OLED面板後,再次擴大產品線。據悉,LG的17英寸可折疊OLED面板采用以往用於汽車顯示器的串聯

2023-06-28

曬出清華大學研究生錄取通知書,稱“終於考上,希望360智腦幫助我順利畢業”。周鴻禕被清華大學計算機科學與技術系電子信息專業錄取,攻讀非全日制、定向就業博士研究生。據公開資料顯示,周鴻禕現年53歲,曾就讀於西

2022-07-29

碰瓷一堆廠商…泡哥果斷搞來這臺手機,給大傢來個全網首發上手體驗!到底是國產之光,還是電子垃圾?今天就給大傢看點幹貨!地表最強縫合怪,手機界的碰瓷王說實話,這款手機的復雜程度,已經遠遠超出泡哥能用語言形

2024-03-23

g )側邊欄功能。360 這次讓自己研發的大模型 360 智腦徹底入駐 “ 全傢桶 ” ,從頭到尾給自傢瀏覽器來場 AI 大更新。在世超來看,瀏覽器也確實需要這麼一場改造,畢竟它可能是咱打工人接觸最多的軟

2022-09-30

健康碼有綠色、黃色、紅色三種狀態,武漢等地還試行過灰碼(應檢未檢),但是你聽說過“黑碼”嗎?在四川成都,有市民做核酸時發現一條“返川來蓉(黑碼)請到新核酸采樣點檢測”的提醒,不知何意。對此,紅星新聞記者采

2023-06-22

能會被淘汰”周鴻禕說。最後,他還建議高考生弄一個360智腦賬號試用一下,因為未來淘汰你的未必是人工智能,淘汰你的是另外一個用人工智能比你好的人。據解,360近日正式發佈360智腦大模型,目前該模型已具備跨模態生成