3月16日下午2點,百度北京總部的發佈廳內,李彥宏邁著急促的步伐走上臺,和大傢公佈最近一段時間備受關註的產品——文心一言。盡管這位科技巨頭創始人登過《 時代 》周刊封面,見過無數大場面,但發佈會中,他的神態裡都透露些許緊張和局促。
我可以這麼說,這是百度自創建以來關註度最高的發佈會之一,所有人都在等著這款對標 ChatGPT 的產品。
有人滿懷期待,但也有很多人,隻是單純想看它出醜。
會上,百度共在 5 個場景下,展示文心一言的能力。
在文學創作方面,文心一言可以總結出《 三體 》內容,也可以在哲學角度續寫《 三體 》。
在商業文案創作這塊,它可以根據公司的業務類型取名,生成 Slogan ,以及撰寫幾百字的新聞稿。
同時,它也可以做一些數理邏輯推算,比如雞兔同籠,還可以判斷出題目錯。
除此之外,文心一言可以給用戶反饋圖像,語音和視頻。
比如它可以為 2023 世界智能交通大會創作一張海報,也能用四川話回答你的問題,甚至是生成視頻。
不過,想實現這些功能其實並不難,百度做的也許就是把這幾項服務融合一下。
可惜的是,發佈會上所有素材都事先錄好的,並非現場實操,所以對於文心一言的真實能力,很多人都表示懷疑。
好在我搞到內測賬號,現在就看看,文心一言的能力到底如何,它和搭載 GPT-4 的 New Bing 比,誰又更強?
我們先測試一些日常問題:如何做一份好吃的松鼠桂魚?
這是文心一言的回答。
這是 New Bing 的回答。
雖然我們沒有時間測出誰的菜譜味道更好,但能看出百度文心一言的回答要優質一些。
它按照標準的菜譜格式,分別給出備料,步驟以及註意事項。
隨後,我們又問一個經典的帶有思維陷阱數學問題:一個青蛙掉到一個 10 米深的井裡,它每天晚上向上跳 3 米但會滑下來 2 米,請問他第幾天能跳出井裡?
文心一言的回答是 8 天,這是正確答案。
而 New Bing 的回答是 5 天。
但 New Bing 一共有三種模式,在切換精確模式後,New Bing 也給出正確回答。
接著,我們測試大傢比較關心的敲代碼能力,讓它們幫忙寫一個漸變色按鈕的 CSS 。
這是文心一言給的代碼。
在實測後發現可以跑出來,但它把 “ 漸變色 ” 理解成鼠標指上去後,顏色發生變化。
而 New Bing 給出的代碼顯示,它成功理解漸變色。
文心一言是在試圖完成用戶的指令,而 New Bing 有點在炫技的味道。
我要的是 CSS ,它給一份完整代碼,還自己加 “ 點擊我 ” 的提示。
後來,我們又測試取名, NewBing 給的是:麻晨曦、麻晴雯、麻璇璣、麻雲舒,似乎挺有新意。
但文心一言的建議,說實話,我一眼就覺得好像在 “ 中國新生兒最熱姓名 ” 裡看過。
隨後,我又提一些節選自弱智吧的問題,測試下他們的 “ 智商 ” 。
比如:把加特林從冰箱拿出來算冷兵器嗎?
兩者都講解什麼是冷兵器後,給出正確答案:不是。
我們又接著問另外一個問題 “ 為什麼貝多芬不出新歌? ”
New Bing 在簡單介紹後,回答因為已經去世 200 年。
但文心一言似乎陷入圈套,分析一堆可能導致貝多芬不出歌的原因。
當然,測試 AI 智商肯定離不開數學題:請用 1 , 2 , 3 , 4 四個數字計算 24 點,每個數字隻能用一次。
對於這個問題,一開始,文心一言似乎把自己的 CPU 幹燒。
後來我們又測試一下,雖然這次不燒,但不知道它在回答什麼東西。
這是 New Bing 的回答。
接著對於中文互聯網黑話的理解能力,我們也測試一下,但讓人失望的是,這方面文心一言表現還不如 New Bing 。
比如雞你太美的梗,它並沒給出一個滿意的答復。
而 New Bing 的回答,雖然也有錯誤,但起碼比文心一言更接近答案。
對於差評 925 的梗,文心一言可能因為訓練語料的原因,沒給到我們想要的答案,而是放出一個非常古老的諧音梗。
New Bing 則近乎完美解釋我們 925 的梗。
在信息搜索的問題上,我們也進行提問:理想汽車過去五個月銷量,請逐月列出。
文心一言的答案是:
New Bing 的回答是:
這兩個答案看下來,文心一言表現地非常拉胯,不僅沒有拉取正確數據,甚至還沒給出符合條件的月份。
最後,我們測試文心一言獨有的畫圖能力。我們先讓它生成一隻刺蝟在敲鍵盤的圖片,這個效果算挺不錯的。
但在讓它生成一隻小馬拉大車的圖片後,我們顯然是高興早,這 TM 是真馬車啊。
OK ,以上就是給大傢做的文心一言測試。
其實這段時間,互聯網上大傢對文心一言都帶著點嘲諷的味道,前兩天,微信群裡就流傳著一個嘲諷表情包。
甚至還有聊天記錄形式的段子,說一旦文心無法正確答復,要用員工頂上。( 明顯是假的 )
發佈會直播間裡,質疑和嘲諷的彈幕也隨處可見。
的確,對比 New Bing 來說,文心一言表現是挺一般,不少方面甚至可以用 “ 拉 ” 來形容。
百度自己也知道,文心一言還差不少火候。
在測試中,它就像個不自信的小孩。
不管答案怎樣,隻要你一否認,他就一邊向你承認錯誤,一邊保證自己會變得更好,給他點時間。
說句實在話,我覺得這次百度,可以說是勇氣可嘉。
一方面,雖然大廠們都在說自己搞類似的東西,但是在 ChatGPT 如日中天的這會兒,百度還是敢頂住壓力,發佈文心一言。
而且,作為一傢搞搜索引擎的,文心一言也很可能會顛覆自己的核心業務。
畢竟咱們之前也和大傢聊過,傳統的搜索引擎與其廣告模式,很可能會被類似的產品幹掉。
百度這波啊,多少是有股激流勇進的味道。
體驗完這波產品,我覺得百度最應該做的,還是盡快迭代,抓緊時間把用戶體驗拉上來。
不然就現在這個狀態,別說是 GPT-4 和 New Bing ,擺到 GPT-3.5 面前,還是有待增強。
至於咱們,也可以耐心一點,給這個初出茅廬的、不自信的小孩多一點時間。
萬一哪天,它突然就把事幹成呢?