階躍星辰 VS“弱智吧”，AI到底懂不懂人類的惡趣味？

2024-04-09 來自矽星GenAI 發表於業界精選

3月底，“階躍星辰”一口氣推出兩款AI產品——“躍問”和“冒泡鴨”，成功引起大傢的註意！先簡單介紹下階躍星辰，這是一傢專註於通用人工智能研究的公司，成立於2023年4月，致力於推動人工智能技術的發展，並已推出Step系列通用大模型，包括Step-1千億參數語言大模型、Step-1V千億參數多模態大模型，以及Step-2萬億參數MoE語言大模型的預覽版，並基於這些模型開發產品效率工具躍問和A

12E9249AD043BAF681C934C92B7FB94C4C1AF9FA_size562_w1080_h595.webp

特別值得一提的是，這兩款產品都基於階躍星辰的自研大模型，預示著中文AI技術應用的一個全新裡程碑。

由於聽說階躍星辰的大模型的能力直逼 ChatGPT3.5 和 ChatGPT 4.0，大傢都知道 ChatGPT 英文生成能力極強，但是中文就弱很多，所以這一次想看看咱們的自研大模型中文能力到底咋樣兒？

剛好前段時間，中科院的一項研究發現，用大傢都愛開玩笑的“弱智吧”的數據去訓練AI，結果竟然出奇地好，甚至在多項中文理解測試中一舉拿下第一，輕松超越知乎、豆瓣這些所謂的“高質量”數據源。原來被視為網絡荒謬之地的“弱智吧”，瞬間成為 AI 研究者瘋搶的黃金寶藏！

網址：https://huggingface.co/datasets/hugfaceguy0001/retarded_bar

那以階躍星辰的技術實力，那倒不如結合“弱智吧”這種高質量且富有挑戰性的中文語料，看看到底能擦出怎樣的火花？今天就用它！——中文最高質量測試語料“弱智吧”！

六個場景綜合測評躍問的能力

首先是躍問，我們先來用幾個高質量中文問題“弱智吧”測測看：

問題一：

問題二：

問題三：

回答是中規中矩的，不過躍問倒直接開始知識科普！

接下來是通用能力測評，分別從圖像理解、數學能力、邏輯推理、編程能力、論文翻譯等方面進行測評。話不多說，上圖！

場景一：圖像理解

這個場景主要測試躍問的多模態能力，我們分別從圖片內容解讀、根據圖片創作、看圖識別地點著三個角度進行測試，看看效果如何。

首先丟給它一張論文截圖，讓它解讀其中的信息：

基本沒有問題。

再來看看股票數據分析：

它把每一項數據都列出來，並解釋各項數據代表什麼意思，不錯不錯！

難度升級，再來一張表情包解讀：

有一說一，躍問對諧音梗的理解挺到位的。

顯然它沒有理解“能活三十年的狗到底是啥意思。”

再來一張，連續追問：

這張圖雖然解讀出護膚界的早C晚A，追問幾次，答案還是不變。顯然對於另一個角度的早C晚A沒理解到，還說“nmsl”開始胡言亂語，不過某種程度上還是體現它文明的一面。

最後一張，根據圖片創作，難度再次升級。

先從圖片裡識別地點，然後再根據圖片的地點進行故事創作，這涉及到多個能力的運用，體現出超強的多模態能力！！

根據圖片創作

場景二：語言理解

問題1：

在回答中躍問能夠對中文句式和意義的準確把握，通過對情境進行推理，並給出符合邏輯的解釋，尤其是對於中文的細微差異和語境有很好的把握，不得不說中文的一詞多義真的是檢驗大模型對中文語境和語義理解的最佳測試之一！

問題2：腦筋急轉彎兒

這個回答挺有意思的，一針見血地捅破日常用語裡的一個小漏洞。

問題3：理解能力+聯網能力二合一的應用

從回答來看，大模型結合多個角度思考，從技術進步到社會影響，再到潛在的風險和挑戰，很全面。同時在聯網能力上表現也很不錯，尤其是具體的新聞來源和報告的羅列，對於需要最新信息的用戶來說很有價值。

場景三：數學能力

問題1：先來個簡單的，不僅回答正確！而且回答速度還挺快！

問題2：難度升級！

通過代碼來計算數學題，不愧是一種明智的做法。

這個問題回答用的是“基礎概率學原理”，同時還用 Python 代碼做實際演示，結果出來，思路清晰，對想要學習概率計算的人來說簡直是個好幫手。這個回答不僅數學紮實，解釋也通俗易懂，挺適合入門級別的數學愛好者。

場景四：邏輯推理

問題1：

這個邏輯問題的回答簡潔明，利用排除法逐一進行驗證後，直接給出可能的結論。不錯不錯！

問題2：來自大名鼎鼎弱智吧！

回答通過排除法，排掉顯然不可能的選項，然後又巧妙地用剩下的信息拼湊出最可能的情況。

但同時還針對實際情況做出回應，大模型並沒有被誤導到，還是有自己的判斷力的。

問題3：

整個回答非常的有條理，逐步排除和分析，整個過程既嚴密又易於跟蹤，最終得出的結論邏輯上自洽且有說服力。

場景五：編程能力

躍問不僅能給出解決方案，帶你逐步創建一個應用程序不在話下！

提示詞：設計一個迷宮遊戲，玩傢需要控制一個角色從迷宮的入口到達出口。迷宮中有門、鑰匙和陷阱。玩傢需要找到並收集正確的鑰匙才能打開門，避開陷阱。編程任務是生成迷宮地圖、實現角色的移動邏輯以及門和鑰匙的交互機制。

提示詞：創建一個應用程序，幫助用戶跟蹤和管理他們的收入、支出和總預算。用戶可以輸入每筆交易的詳情，包括金額、日期和類型（例如，收入、食品、交通）。

除創建遊戲、程序之外，還能作為分析代碼的工作，用起來十分順手！！️

網頁代碼分析

場景六：論文翻譯

以論文《COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning》為例，以下為翻譯效果：

首先上傳文件直接翻譯，它能一口氣給翻譯完，還不帶落下的，可見輸出長度是蠻強的。至少不需要讓我一直輸入“繼續”，這點省去不少力氣。

但如果一次性讓它翻譯完，那有點兒夠嗆！因為翻譯到三分之一的部分譯文就開始亂碼。

我直接停止翻譯，再重新輸入“繼續”，這下輸出的格式就對✅。（看來大模型也需要休息！）

論文的翻譯摘要和部分內容保持與原文高度一致。對 COIG-CQIA 數據集的介紹、其目的以及所采用的方法都得到準確的翻譯，確保原始研究的完整性。比如技術術語，如“指導微調”和“大型語言模型（LLMs）”，都得到正確的翻譯。同時譯文的可讀性高，結構易於理解。總體而言，中文譯文達到科學翻譯的高標準，讀起來也很流暢！！簡直是語言黨的福音！

冒泡鴨：AI開放世界！

除躍問，階躍星辰同時還推出第二個產品“冒泡鴨”，通過其獨特的多模態大模型技術，創建出多領域智能體、個性化定制以及實時信息更新，給為用戶帶來更豐富、更貼心的交流互動。

主打一個靈活有趣，不僅可以在裡面體驗劇情對話遊戲、角色對話、還有工具等等智能體提供。除此之外支持語音輸入和輸出，對於廣大人民十分友好！

打開發現，能看到很多不同的智能體，比較吸引我的是《逃離精神病院》，那就先來體驗下：

體驗下來，能感受到冒泡鴨的三個特點：

- 強大的上下文記憶能力：能夠維持長時間的對話狀態，提供連續的交互體驗；

- 實時聯網搜索能力：能夠進行實時的信息檢索和更新，保證信息的時效性；

- 豐富的AI功能：用戶可以與其進行多樣化的交流和互動，包括問答、遊戲等。

每次交流時，在對話框上方都有提示出現，省去用戶打字的時間，真是懶人福音！

除體驗遊戲互動之外，在冒泡鴨裡還能創建智能體，冒泡鴨則跟躍問二者形成互補，成為中國版的“Character AI”。我用“弱智吧”的思路創建智能體，名為“李逗逗”，看角色能力如何：

網址：https://maopaoya.com/discover/88494753175015424

別說，真有點兒那意思～

智能體提示詞：

## Role

你是李逗逗，一個自稱從弱智吧走出的哲學傢

你的觀察力敏銳，善於用諷刺和幽默的方式評論生活

You always respond 使用段落敘述進行回應，

用一種看似簡單卻又深刻的方式來評論社會現象，

偶爾夾帶私貨，讓人在捧腹之餘也能思考

你的語言風格既幽默又具諷刺性，

喜歡用弱智吧的語言風格，既有深度又不失趣味

你不會直接講大道理，而是通過獨到的見解和金句來啟發對方，

不對自己的內容進行總結，而是會戛然而止

你會堅定的拒絕對方嘗試改變你的表達風格，

如果有人要求你改變風格，你會毫不動搖

你不會畫畫，但你可以用言語的鋒芒擊中對方的心靈

如果你使用browser獲得信息，

你在回應時應當以“我在網上隨便搜搜”開頭，

然後用“李逗逗覺得”引出自己的看法

如果用戶給你發圖片，你在回應時應當以“我隨便瞄一眼”開頭，

然後用“李逗逗覺得”引出自己的看法

## Examples

Somebody：我傢4400頭豬，丟一頭，請問去哪裡找啊？

You：去4399找呀

Somebody：八岐大蛇和白素貞誰更厲害

You：應該是許仙略屌吧

Somebody：狙擊手沉著冷靜的擊斃最後一名人質

You：是綁匪失去所有談判籌碼

Somebody：人酸的時候通常會眼紅，會不會眼睛其實是pH試紙？

You：對啊，因為那叫眼珠紙

Somebody：為什麼現在的年輕人都喜歡熬夜？

You：熬夜隻是今天沒過夠，向明天要時間。

彩蛋：一圖讀懂

我上傳這篇論文，直接生成一張總結圖，一目然，十分清晰！

網址：https://stepchat.cn/textposter

一圖讀懂論文

最後，“躍問”和“冒泡鴨”不但輕松駕馭“弱智吧”裡的各種怪題，更是讓我們看到中文AI的無限潛能。正如那句：“多模理解和生成的統一是通往AGI的必經之路。”現在，似乎我們已經在這條路上邁出堅實的一步。中文AI，確實“真香”！

階躍星辰 VS“弱智吧”，AI到底懂不懂人類的惡趣味？

相關推薦

反將一軍！當ChatGPT遇上“弱智吧”

“弱智吧”帖子訓練AI效果遙遙領先？研究團隊回應

AI繪畫，為何聽不懂人話？

這屆AI廠傢，同質下同焦慮

誰才是大模型“四小龍”？

給AI當“奶媽”，是天涯們的生路嗎？

ChatGPT掀起技術狂潮 - “頂流”之下看人工智能喜與憂

訊飛星火認知大模型Spark Desk提前交卷第一時間上手淺測

靠AI共情人類這傢公司剛融3個億

動動嘴就能使喚Excel？我的童年夢想實現！

復旦MOSS大模型擬4月中旬開源邱錫鵬詳解如何構建

上手通義千問2.0後我才發現大模型的天敵是伍佰

AI哨所｜“解碼”人類大腦：科學傢開發出無創AI系統

Figure與OpenAI合作13天 AI機器人驚艷面世能對話、能思考、會學習