上手通義千問2.0後我才發現大模型的天敵是伍佰

2023-11-01 來自差評發表於業界精選

大模型，它又雙叒來。今年上半年，那波大模型1.0&nbsp;狂轟濫炸之後。隨著時間的推移，各傢打磨的下一代大模型，最近開始慢慢問世。這不，前兩天文心一言4.0&nbsp;才發。今天雲棲大會上，通義千問2.0&nbsp;就馬上跟進，還上個APP。最重要的是，這次通義2.0直接開放給全社會體驗。點進通義千問，就能直接用上最新版。

這點還是挺有誠意，有興趣的差友們，都可以親自上手試試 ~ 不過，按照咱們傳統，世超還是會先帶大傢簡單感受一下，全新升級的 2.0 有啥不同。也方便大傢上手時，有個大致的體驗方向。

這回的通義 2.0，說是已經超過 ChatGPT 3.5，縮短和 GPT-4 的差距。

但是，世超一上手，就覺得稍微有點失望，因為這個2.0 版依舊不支持聯網。不過雖然不具備聯網能力，但世超試著問一些熱梗。

比如 “ 哪李貴 ”、“ 這是一個 lonely 的問題 ”，它居然全都能夠讀懂。

這些回答不靠聯網，純靠手動更新數據庫。隻能說，確實挺努力的。但不管更新多快，我們都沒法當聯網 AI 測試。

隻能從基本能力入手，分別是語義理解、邏輯、多模態能力、文本生成、代碼這五個方面，稍微探探底子咋樣。首先，依照國際慣例，來點喜聞樂見的弱智吧問題。

世超一來就問道，連 GPT-4 都傻眼的題目。問：這世上真的有龍，我就在某地被一條龍服務過。上回， GPT-4 就是被這兩條龍給繞暈，給我編一堆虛構的成語來歷。

結果讓人有點意外，通義居然能完美應對。能完全理解兩個龍的區別是啥，也能明白 “ 一條龍 ” 服務是啥意思。開局第一問，通義這小子應對的還不錯。

不過，為防止通義會不會有備而來，偷偷訓練，世超又去弱智吧上點新貨。

問：為什麼抄襲永遠都是今人抄襲古人，沒有古人抄襲今人。

這回通義就有點應付不來。它結論是對的，因為時間順序，古人當然不能抄今人。

但是，仔細看就會發現，後面還是說錯一句。它說，這並不是說古人就不會借鑒今人。估計通義本來是想正反面論證，顯得更客觀，結果就是反而暴露邏輯馬腳。

其實世超試過這麼多中文語義題，沒有哪個大模型是都能做對的。你多問幾題，換換角度，總是會做錯幾道。比如問：小偷偷偷偷東西，什麼意思？

通義語義解釋為小偷偷取東西，是沒啥問題的。但是前半句又說句子裡有 3 個偷，說這是中文繞口令，就有些問題。

不過，從結果來看，三道題算是對 2.5 道，通義的中文語義理解算是不錯的。

好，讓咱們測試繼續。下題還是從中文下手，問點中文語境下比較難的文本生成題。以前每次都測寫小作文或者故事，這次整點花活。

讓它用諸葛亮的語氣，寫首 rap 聽聽。這一題，通義答得就有點意思。Rap 詞裡又是孔明，又是臥龍；又是靜坐軍帳、輕撫瑤琴，又是小試牛刀的。既符合諸葛亮的人物屬性，又語言活潑。唯一美中不足就是沒押上韻。

不過，世超進一步考驗它的發散思維，又有點表現不行。

讓它給我編個馬斯克和孔子的對話。然後，就看到孔子嘴裡說出 “ 人工智能 ” 四個字。。其他語句，也不太符合人物性格。

從前面兩輪測試看下來，通義 2.0 的中文水平是能聽能寫，但還沒有到能自如應對。發揮不太穩，有時能對，有時又會犯傻。

其實大模型都有這樣的毛病，咱們到底能不能把它應用起來，靠的是另一個東西——學習能力。

就比如讓大模型直接做一個直播策劃，往往出來的內容都是不夠成熟的。這個時候，就看它們會不會學。當你甩一些參考案例給它，它們能夠理解教程的意思，並模仿出來，這才是最重要的。

這點，世超覺得通義做的是不錯的，大傢直接看案例就行。世超讓它做個電動牙刷的直播流程。並提前丟一個蜜雪冰城的參考，引導一下。

立馬就學會，並甩一份非常詳細的直播流程。開場、留客、鎖客學的一套一套的。。中文理解、學習和文本生成都相當在線。

到這一步，中文能力測試算暫時告一段落。下面看看大模型的究極弱項——數學邏輯題和代碼，是否有提高。

當年考倒過無數大模型的 “ 雞兔同籠 ” 、 “ 青蛙跳井 ” 等等簡單的數學題，通義應對起來是沒問題。就算稍微給題目變一下形，也是分步解答，輕松駕馭。

但也是跟很多大模型一樣的毛病，題目一旦難起來，到個初高中水平，就傻眼。問它：任取三個長度小於 1 的線段，能組成一個三角形的概率為？

它和我說， 0 個交點組不成三角形， 1 個和 3 個交點組得成。。。我去，這麼簡單的解題思路，我怎麼沒想到呢？

以前有差友問說，大模型能不能用來改試卷。如果是數學老師，那世超建議還是三思。。通義確實是進步，不過隻進步到小升初水平。數學題這種嚴格推理的題目，對大模型來說還是一塊最難啃的骨頭。

不過，在代碼方面，世超倒是沒有把通義問倒，它應答自如。甩一堆要求，讓它做一個非常簡潔的差評雙十一大促頁面。

人傢三下五除二就做完，效果還是非常符合差評的審美的，需要預留的位置也都做。雖然可能為嚴格執行我對於頁面簡潔的要求，所以導致看起來有點過於明。

測試到這裡，還沒有結束。除基礎能力的提高之外，通義還增加圖片和文檔解析兩個新功能。其實像圖片上傳功能，是很多傢的重點攻克對象， GPT-4 後續也主要是在這一塊發力。

不過，世超試下來，通義目前的圖片解析能力，還是有點弱的。基礎圖片識別，是沒啥問題的。比如丟個馬斯克給他，問它這哪位。它能一眼認出，還順道給你科普上兩句。

但是，如果加點抽象互聯網難度，比如說世超給一張自己桌子上的玩偶，讓它給我分析分析。

它雖然能認出這是 “ 小雞 ”，還有打籃球這兩個元素。但不太理解圖片裡的梗，還堅持不懈地胡謅一段 “ 灌籃小雞 ” 梗的來歷。。

我們的伍佰老師，更是輕而易舉地把通義耍得團團轉。給一張 “ 隨 520 ” 的梗圖，裡面是一張伍佰老師的靚照和一張 20 元人民幣。

結果，通義不光讀不懂什麼梗，連圖片裡有多少錢也數不明白。

圖片識別能力更被徹底地幹垮，指著伍佰說，這是吳彥祖。。。

不僅圖片上傳還差點意思，後面世超試試文檔功能，也輕松把通義考倒。世超甩一篇電動牙刷的行業報告給它，問句電動牙刷行業的發展痛點是啥。通義嘎嘎一頓總結，各種分點羅列，系統分析。看起來答的很努力，實際答案全錯。

原因很簡單，這裡世超特地挖個坑，預防大模型會胡說八道。

所以，給的文檔裡隻有目錄，沒有內容。通義這些分析是不錯，可惜全是胡編的，跟我的參考資料沒半點關系。。

幾輪測試結束，通義同學的成績是一目然。

雖然整體來沒有特別亮眼的強悍更新，但也算穩紮穩打，基本能力提高得更紮實，學習能力也一直在線。但其中，圖片和文檔倆能力，還有挺大的提升空間的。

其實，比起通義千問，世超覺得自己閑逛時發現的產品，更有意思。阿裡通義官網裡，還有七大產品方向，比如代碼助手、客服等等。雖然大部分還是內測，都試用不。不過，世超一下開放的通義智文，文檔體驗比通義千問要好不少。

這個產品是專門用來解讀文檔的，你不僅可以丟長篇的電子書，也可以甩各種文章鏈接給它。

世超試著把前面挖坑的行業目錄，輸入進去。通義智文就沒有中招。不僅明確指出裡面沒提到，回答還標註出，數據來源於文章裡的那幾句。這點設計的就挺好，避免胡言亂語。

比起通義千問本身，世超反而更期待這些專項訓練的應用大模型。大部分工種，隻用得到通識大模型一兩個功能。像世超這種碼字的，需要的就是文本分析和生成。

更針對性的訓練，其實更有助於提高大模型的實用性。不僅是從能力方面考慮，其實現在挺多大模型都到一個平臺期，很難有極大的突破。從這些小點入手，或許會成為一個更好的解題思路。

相關推薦

阿裡雲發佈通義千問2.0 性能超GPT-3.5 正加速追趕GPT-4

2023-10-31

上，阿裡雲首席技術官周靖人正式發佈千億級參數大模型通義千問2.0。在10個權威測評中，通義千問2.0綜合性能超過GPT-3.5，正在加速追趕GPT-4。當天，通義千問APP在各大手機應用市場正式上線，所有人都可通過APP直接體驗最新模

全球首次！阿裡雲聯發科聯手率先實現大模型在手機芯片端深度適配

2024-03-28

機芯片廠商聯發科，已成功在天璣9300等旗艦芯片上部署通義千問大模型，首次實現大模型在手機芯片端深度適配。據悉，通義千問在離線情況下依然可以流暢運行多輪AI對話。阿裡雲方面表示，將和聯發科深度合作，向全球手機

阿裡版ChatGPT突然上線邀測大模型熱戰正劇開始

2023-04-07

，阿裡版類ChatGPT突然官宣正式對外開放企業邀測。它叫通義千問，由達摩院開發。嗯，是大模型版十萬個為什麼那個味兒。事實上，早在這個月初，就傳出過不少阿裡要推出類ChatGPT的消息，不過普遍預期在11號左右。而前幾天

支持對話、創作、推理等！阿裡巴巴“通義千問”開啟限量邀請體驗

2023-04-11

今日的阿裡雲峰會上，阿裡巴巴正式宣佈推出大語言模型通義千問。據阿裡雲智能首席技術官周靖人介紹，通義千問支持多輪對話，文案創作，邏輯推理，多模態理解，多語言支持。在視頻演示中，通過通義千問，可以提升工作

國內首個官方大模型評測結果出爐！阿裡雲通義千問首批通過評測

2023-12-23

國內首個官方大模型標準符合性評測”結果公佈。阿裡雲通義千問成為首批通過評測的四款國產大模型之一，在通用性、智能性等維度均達到國傢相關標準要求。據悉，本次通過評測的首批大模型中，通義千問是唯一的開源模型

張勇：阿裡所有產品未來將接入通義千問大模型全面升級

2023-04-11

型進行全面的升級。上周阿裡雲官方宣佈，自研大模型“通義千問”開始邀請用戶測試體驗。據介紹，阿裡達摩院2019年便已啟動中文大模型研發。現階段“通義千問”主要定向邀請企業用戶進行體驗測試，用戶可通過通義千問

突遭下架，“國服最強”開源模型將何去何從？

2024-09-18

日益激烈。同樣在9月，號稱“國服最強”的開源大模型通義千問QwenLM全系列代碼在github（全球最大的開源代碼托管平臺之一）被下架，包括開源新王Qwen2.0在內的項目在訪問時全部404。不僅引發從業者對開源模型穩定性的信任危

通義千問主力模型大幅降價85%！阿裡雲CTO：降價空間仍很大

2024-09-24

快科技9月23日消息，在今年的雲棲大會上，阿裡雲宣佈對通義千問主力模型進行大幅度降價，其中Qwen-Turbo的價格直降85%，低至百萬tokens僅需0.3元。阿裡雲CTO周靖人在會上表示，盡管已經實現大幅度降價，但大模型的價格並沒有

阿裡雲大模型研究成果亮相 “通義千問”開啟企業邀測

2023-04-07

4月7日消息，阿裡雲宣佈自研大模型“通義千問”開始邀請用戶測試體驗。現階段該模型主要定向邀請企業用戶進行體驗測試，用戶可通過官網申請（tongyi.aliyun.com），符合條件的用戶可參與體驗。據悉，阿裡達摩院在NLP自然語

張勇：阿裡巴巴所有產品未來將接入“通義千問”

2023-04-11

CEO張勇在雲峰會上表示，阿裡巴巴所有產品未來將接入“通義千問”大模型，進行全面改造。他認為，面向AI時代，所有產品都值得用大模型重新升級。“面向AI時代，所有產品都值得用大模型重做一次。”張勇表示，AI大模型的

未來大模型將驅動一切硬件！阿裡巴巴CEO吳泳銘：通義千問正加快追趕GPT-4

2024-03-11

。同時吳泳銘還表示，作為國內基礎大模型的代表之一，通義千問正加快追趕GPT-4，並把基礎大模型能力釋放出來。通過開放API/SDK調用等方式，千行百業的開發者和企業用戶不僅可以便捷開發人工智能原生應用，還可以與合作夥

釘釘宣佈接入通義千問！一條“/”拉高生產力

2023-04-18

，在今天舉辦的2023春季釘峰會上，釘釘宣佈將接入阿裡通義千問大模型，並展示接入AI後，一條/”能夠帶來的生產力提升。在群聊中，新入群者無需爬樓，在對話框輸入/”即可自動整理群聊要點，快速解上下文，並生成待辦、

4月，國內大模型遍地開花

2023-04-16

介紹稱，葉悠悠可與車主實現擬人級語音交互。阿裡雲“通義千問” 大語言模型4月7日，在阿裡雲峰會上，阿裡雲大語言模型“通義千問”正式推出。據介紹，通義千問是一個超大規模的語言模型，功能包括多輪對話、文案創作

AI單挑六回合，百度VS阿裡誰更厲害？

2023-04-10

三周前百度“文心一言”開啟內測後，阿裡版類ChatGPT“通義千問”也終於上線，正式對外開放企業邀測。通義千問是由阿裡達摩院研發的AI聊天機器人，具備多輪對話、知識搜索、內容創作、表達觀點、撰寫代碼等能力。我們特

熱門推薦