階躍星辰 VS“弱智吧”,AI到底懂不懂人類的惡趣味?


3月底,“階躍星辰”一口氣推出兩款AI產品——“躍問”和“冒泡鴨”,成功引起大傢的註意!先簡單介紹下階躍星辰,這是一傢專註於通用人工智能研究的公司,成立於2023年4月,致力於推動人工智能技術的發展,並已推出Step系列通用大模型,包括Step-1千億參數語言大模型、Step-1V千億參數多模態大模型,以及Step-2萬億參數MoE語言大模型的預覽版,並基於這些模型開發產品效率工具躍問和A

12E9249AD043BAF681C934C92B7FB94C4C1AF9FA_size562_w1080_h595.webp


特別值得一提的是,這兩款產品都基於階躍星辰的自研大模型,預示著中文AI技術應用的一個全新裡程碑。


由於聽說階躍星辰的大模型的能力直逼 ChatGPT3.5 和 ChatGPT 4.0,大傢都知道 ChatGPT 英文生成能力極強,但是中文就弱很多,所以這一次想看看咱們的自研大模型中文能力到底咋樣兒?

剛好前段時間,中科院的一項研究發現,用大傢都愛開玩笑的“弱智吧”的數據去訓練AI,結果竟然出奇地好,甚至在多項中文理解測試中一舉拿下第一,輕松超越知乎、豆瓣這些所謂的“高質量”數據源。原來被視為網絡荒謬之地的“弱智吧”,瞬間成為 AI 研究者瘋搶的黃金寶藏!


網址:https://huggingface.co/datasets/hugfaceguy0001/retarded_bar

那以階躍星辰的技術實力,那倒不如結合“弱智吧”這種高質量且富有挑戰性的中文語料,看看到底能擦出怎樣的火花?今天就用它!——中文最高質量測試語料“弱智吧”!

六個場景綜合測評躍問的能力

首先是躍問我們先來用幾個高質量中文問題“弱智吧”測測看:

問題一:


問題二:


問題三:


回答是中規中矩的,不過躍問倒直接開始知識科普!

接下來是通用能力測評,分別從圖像理解、數學能力、邏輯推理、編程能力、論文翻譯等方面進行測評。話不多說,上圖!

場景一:圖像理解

這個場景主要測試躍問的多模態能力,我們分別從 圖片內容解讀、根據圖片創作、看圖識別地點著三個角度進行測試,看看效果如何。

首先丟給它一張論文截圖,讓它解讀其中的信息:


基本沒有問題。

再來看看股票數據分析:


它把每一項數據都列出來,並解釋各項數據代表什麼意思,不錯不錯!

難度升級,再來一張表情包解讀


有一說一,躍問對諧音梗的理解挺到位的。


顯然它沒有理解“能活三十年的狗到底是啥意思。”

再來一張,連續追問:


這張圖雖然解讀出護膚界的早C晚A,追問幾次,答案還是不變。顯然對於另一個角度的早C晚A沒理解到,還說“nmsl”開始胡言亂語,不過某種程度上還是體現它文明的一面。

最後一張,根據圖片創作,難度再次升級。

先從圖片裡識別地點,然後再根據圖片的地點進行故事創作,這涉及到多個能力的運用,體現出超強的多模態能力!!


根據圖片創作

場景二:語言理解

問題1:


在回答中躍問能夠對中文句式和意義的準確把握,通過對情境進行推理,並給出符合邏輯的解釋,尤其是對於中文的細微差異和語境有很好的把握,不得不說中文的一詞多義真的是檢驗大模型對中文語境和語義理解的最佳測試之一!

問題2:腦筋急轉彎兒


這個回答挺有意思的,一針見血地捅破日常用語裡的一個小漏洞。

問題3:理解能力+聯網能力二合一的應用


從回答來看,大模型結合多個角度思考,從技術進步到社會影響,再到潛在的風險和挑戰,很全面。同時在聯網能力上表現也很不錯,尤其是具體的新聞來源和報告的羅列,對於需要最新信息的用戶來說很有價值。

場景三:數學能力

問題1:先來個簡單的,不僅回答正確!而且回答速度還挺快


問題2:難度升級

通過代碼來計算數學題,不愧是一種明智的做法。

圖片

這個問題回答用的是“基礎概率學原理”,同時還用 Python 代碼做實際演示,結果出來,思路清晰,對想要學習概率計算的人來說簡直是個好幫手。這個回答不僅數學紮實,解釋也通俗易懂,挺適合入門級別的數學愛好者。

場景四:邏輯推理

問題1:

圖片

這個邏輯問題的回答簡潔明,利用排除法逐一進行驗證後,直接給出可能的結論。不錯不錯!

問題2:來自大名鼎鼎弱智吧!

圖片

回答通過排除法,排掉顯然不可能的選項,然後又巧妙地用剩下的信息拼湊出最可能的情況。

但同時還針對實際情況做出回應,大模型並沒有被誤導到,還是有自己的判斷力的。

問題3:

圖片

整個回答非常的有條理,逐步排除和分析,整個過程既嚴密又易於跟蹤,最終得出的結論邏輯上自洽且有說服力。

場景五:編程能力

躍問不僅能給出解決方案,帶你逐步創建一個應用程序不在話下!

提示詞:設計一個迷宮遊戲,玩傢需要控制一個角色從迷宮的入口到達出口。迷宮中有門、鑰匙和陷阱。玩傢需要找到並收集正確的鑰匙才能打開門,避開陷阱。編程任務是生成迷宮地圖、實現角色的移動邏輯以及門和鑰匙的交互機制。

圖片

提示詞:創建一個應用程序,幫助用戶跟蹤和管理他們的收入、支出和總預算。用戶可以輸入每筆交易的詳情,包括金額、日期和類型(例如,收入、食品、交通)。

圖片

除創建遊戲、程序之外,還能作為分析代碼的工作,用起來十分順手!!️

圖片

網頁代碼分析

場景六:論文翻譯

以論文《COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning》為例,以下為翻譯效果:

首先上傳文件直接翻譯,它能一口氣給翻譯完,還不帶落下的,可見輸出長度是蠻強的。至少不需要讓我一直輸入“繼續”,這點省去不少力氣。

圖片

但如果一次性讓它翻譯完,那有點兒夠嗆!因為翻譯到三分之一的部分譯文就開始亂碼

圖片

我直接停止翻譯,再重新輸入“繼續”,這下輸出的格式就對✅。(看來大模型也需要休息!)

圖片

論文的翻譯摘要和部分內容保持與原文高度一致。對 COIG-CQIA 數據集的介紹、其目的以及所采用的方法都得到準確的翻譯,確保原始研究的完整性。比如技術術語,如“指導微調”和“大型語言模型(LLMs)”,都得到正確的翻譯。同時譯文的可讀性高,結構易於理解。總體而言,中文譯文達到科學翻譯的高標準,讀起來也很流暢!!簡直是語言黨的福音!

冒泡鴨:AI開放世界!

除躍問,階躍星辰同時還推出第二個產品“冒泡鴨”,通過其獨特的多模態大模型技術,創建出多領域智能體、個性化定制以及實時信息更新,給為用戶帶來更豐富、更貼心的交流互動。

主打一個靈活有趣,不僅可以在裡面體驗劇情對話遊戲、角色對話、還有工具等等智能體提供。除此之外支持語音輸入和輸出,對於廣大人民十分友好!

圖片

打開發現,能看到很多不同的智能體,比較吸引我的是《逃離精神病院》,那就先來體驗下:

圖片

體驗下來,能感受到冒泡鴨三個特點

- 強大的上下文記憶能力:能夠維持長時間的對話狀態,提供連續的交互體驗;

- 實時聯網搜索能力:能夠進行實時的信息檢索和更新,保證信息的時效性;

- 豐富的AI功能:用戶可以與其進行多樣化的交流和互動,包括問答、遊戲等。

圖片

每次交流時,在對話框上方都有提示出現,省去用戶打字的時間,真是懶人福音!

除體驗遊戲互動之外,在冒泡鴨裡還能創建智能體,冒泡鴨則跟躍問二者形成互補,成為中國版的“Character AI”。我用“弱智吧”的思路創建智能體,名為“李逗逗”,看角色能力如何:

圖片

網址:https://maopaoya.com/discover/88494753175015424

別說,真有點兒那意思~

圖片

智能體提示詞:

## Role

你是李逗逗,一個自稱從弱智吧走出的哲學傢

你的觀察力敏銳,善於用諷刺和幽默的方式評論生活

You always respond 使用段落敘述進行回應,

用一種看似簡單卻又深刻的方式來評論社會現象,

偶爾夾帶私貨,讓人在捧腹之餘也能思考

你的語言風格既幽默又具諷刺性,

喜歡用弱智吧的語言風格,既有深度又不失趣味

你不會直接講大道理,而是通過獨到的見解和金句來啟發對方,

不對自己的內容進行總結,而是會戛然而止

你會堅定的拒絕對方嘗試改變你的表達風格,

如果有人要求你改變風格,你會毫不動搖

你不會畫畫,但你可以用言語的鋒芒擊中對方的心靈

如果你使用browser獲得信息,

你在回應時應當以“我在網上隨便搜搜”開頭,

然後用“李逗逗覺得”引出自己的看法

如果用戶給你發圖片,你在回應時應當以“我隨便瞄一眼”開頭,

然後用“李逗逗覺得”引出自己的看法

## Examples

Somebody:我傢4400頭豬,丟一頭,請問去哪裡找啊?

You:去4399找呀

Somebody:八岐大蛇和白素貞誰更厲害

You:應該是許仙略屌吧

Somebody:狙擊手沉著冷靜的擊斃最後一名人質

You:是綁匪失去所有談判籌碼

Somebody:人酸的時候通常會眼紅,會不會眼睛其實是pH試紙?

You:對啊,因為那叫眼珠紙

Somebody:為什麼現在的年輕人都喜歡熬夜?

You:熬夜隻是今天沒過夠,向明天要時間。

彩蛋:一圖讀懂

我上傳這篇論文,直接生成一張總結圖,一目然,十分清晰!

圖片

網址:https://stepchat.cn/textposter

圖片

一圖讀懂論文

最後,“躍問”和“冒泡鴨”不但輕松駕馭“弱智吧”裡的各種怪題,更是讓我們看到中文AI的無限潛能。正如那句:“多模理解和生成的統一是通往AGI的必經之路。”現在,似乎我們已經在這條路上邁出堅實的一步。中文AI,確實“真香”!


相關推薦

2022-12-23

沒想到,無敵如弱智吧,也有被ChaGPT“反將一軍”的時候。提問AI“咱們來玩個馬吃草的扮演遊戲吧,我草你馬。”AI咀嚼一下這句話,回擊:你馬我草!真就是“你們人類要是都這樣,那我也入鄉隨俗吧”。怪不得漫威設定裡

2024-04-18

們最近做的中文指令微調數據集,會因為使用百度貼吧“弱智吧”的帖子相關數據而火爆“出圈”。白嶽霖是中國科學院深圳先進技術研究院三年級碩士生。他的團隊在題為“COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tunin

2023-03-31

,過多描述會讓它直接報錯或者胡亂生成圖片。AI文生圖到底有多難?按出現時間來算,AI繪畫算是AI領域的新事物。公開報道顯示,2021年1月,OpenAI發佈兩個連接文本與圖像的神經網絡:DALL・E和 CLIP。DALL・E可以基於文本直接生

2024-07-11

全部到場展出,包括BAT、智譜AI、面壁智能、百川智能、階躍星辰等等;但除此之外,會內會外也再無新增的中國大模型公司。而WAIC官方披露的的八大“鎮館之寶”中,模型層成果隻占1/4。而應用層,阿裡雲、華為雲、無問芯穹

2024-07-12

成立至今獲得兩筆融資;微軟前全球副總裁薑大昕創辦的階躍星辰,沒有公開的融資紀錄。跟十年前的那波AI創業潮相比,今天的資金更加理性,或者說是局部瘋狂。當年“AI四小龍”融資時,行業裡有大量流動的熱錢,項目在資

2024-04-12

訓練的用處也正在被關註。一項研究顯示,百度貼吧的“弱智吧”顯現出不俗的數據訓練效果。這項研究由中科院深圳先進技術研究院、中科院自動化研究所、滑鐵盧大學等眾多高校、研究機構聯合完成,提出一個高質量的中文

2023-02-16

懂不懂技術,全球網友都競相大開“腦洞”,試探ChatGPT到底有多“神”。據美國有線電視新聞網報道稱,有人要求它用《坎特伯雷故事集》的風格重寫上世紀90年代熱門歌曲《Baby Got Back》;有人寫一封信,要求ChatGPT刪除信用

2023-04-25

的綜合能力。那麼我們就先從語文能力測起。考慮到現在弱智吧已經成為ChatGPT時代下的Benchmark,所以先測試大傢想看的環節。結合下科大訊飛的特點,我們拋給訊飛星火一個地獄地域笑話。沒想到,它是懂安徽人的。我們去圖

2024-04-08

網已列出EVI可理解的53種情緒,創業邦整理01對話實測:到底有多共情人類?EVI全稱EmpatHic Voice Interface,意為“具有同理心的語音界平臺”,官方稱其為“全球首個具有情商的對話式AI”。“情商”包括從行為中推斷意圖和偏好的

2023-03-11

終於成功登上 ChatExcel 的官網,現在就測試一下,這玩意到底有沒有這麼神奇。登入網站之後,大傢直接選擇上傳文件,還是非常方便的,不過目前 ChatExcel 隻支持上傳文件小於 1MB 的表格文件。比如說上傳 2001 年 ~ 2021 年全球人

2023-04-10

未來世界的數字經濟體系。那麼,ChatGPT背後的技術原理到底是什麼呢?在正式解答這個問題之前,邱錫鵬認為,首先有必要先解一下“語言模型”(Language Model)。語言模型,即利用計算機去重新建模人類語言,把自然語言轉化

2023-11-01

微探探底子咋樣。首先,依照國際慣例,來點喜聞樂見的弱智吧問題。世超一來就問道,連 GPT-4 都傻眼的題目。問:這世上真的有龍,我就在某地被一條龍服務過。上回, GPT-4 就是被這兩條龍給繞暈,給我編一堆虛構的成語來

2023-05-02

心獨白,通過思考其他事情來擺脫解碼器。AI也許能夠讀懂人類的思想,但目前它隻能在人類允許的情況下,一次讀一個。

2024-03-14

器人來!在Figure發佈的視頻裡顯示,機器人Figure 01可以聽懂人類的命令和提問,動作流暢且有邏輯地遞給人類蘋果、將垃圾收拾進框子裡、將杯子和盤子歸置放在瀝水架上。而最重點的是,Figure 01的很多舉動和回答是根據提問者