文心一言數學和中文理解能力全球第幾?清華最新報告出爐


4月21日,由清華大學基礎模型研究中心聯合中關村實驗室研制的SuperBench大模型綜合能力評測框架,正式對外發佈2024年3月版《SuperBench大模型綜合能力評測報告》,結果顯示:文心一言4.0表現亮眼,與國際一流模型水平接近,且差距已經逐漸縮小。



在人類對齊能力評測中,文心一言4.0位居國內第一;中文理解上,文心一言4.0領先第二名GLM-4 0.41分,GPT-4系列模型表現較差,和文心一言4.0分差超過1分。

在語義理解中的數學能力上,文心一言4.0與Claude-3並列全球第一; GPT-4系列模型位列第四五,其他模型得分在55分附近較為集中;在語義理解中的閱讀理解能力上,文心一言4.0超過GPT-4 Turbo、Claude-3以及GLM-4拿下榜首。

在安全性評測上,國內模型文心一言4.0拿下最高分(89.1分),Claude-3僅列第四。


據悉,自文心一言首發至今,用戶數已突破2億。


相關推薦

2023-03-17

伐走上臺,和大傢公佈最近一段時間備受關註的產品——文心一言。盡管這位科技巨頭創始人登過《 時代 》周刊封面,見過無數大場面,但發佈會中,他的神態裡都透露些許緊張和局促。我可以這麼說,這

2023-03-31

AI繪畫領域是由兩傢公司的動態引爆的。3月17日百度發佈文心一言,網友們瘋狂發散想象力,令人捧腹的圖片接連被生成。關於文心一言文字生成圖片的討論熱情空前高漲。緊接著,3月18日,美國Midjourney公司宣佈第五版AI圖像生

2023-03-17

文心一言千呼萬喚始出來,兩天內,百度股價先抑後揚,實現一個大號V字反轉。新聞發佈會當天百度港股股價下跌後,隨著部分媒體和企業用戶陸續拿到內測邀請碼,文心一言真實的能力表現很快提振資本市場對百度的信心。

2023-03-16

。”研發近5年,提前一個月宣傳造勢,備受關註的百度文心一言終於揭開神秘面紗。3月16日,百度基於文心大模型技術打造的生成式對話產品——文心一言正式亮相。據百度創始人、董事長兼CEO李彥宏介紹,文心一言在文學創

2024-03-10

創始人李彥宏在央視2024《對話開年說》節目中談到百度文心一言。李彥宏表示,文心一言4.0在中文上已經超過ChatGPT4.0。比如寫藏頭詩,現在很多大模型都能寫,但如果要求它寫一個《沁園春》詞牌的詞,ChatGPT4.0就完全搞不懂,

2023-03-23

不真實,所以兩個都不住。這沒有什麼大毛病,和 GPT、文心一言們沒什麼差別。但在後續的一系列測試裡,這應該是 Bard 回答得最好的一個問題。更進一步,我們問個前幾天給 GPT 們測過的另一個抽象問題:直角是 90 度,開水

2023-03-17

在和文心一言侃大山的過程中,它時而瘋狂、時而理性,甚至學會“小聰明”。但可以感受到的是,這位不完美小孩正在悄悄努力,等待驚艷眾人。頂著GPT-4的壓力,百度在昨天推出自己的新一代大語言模型、生成式AI產品文心

2023-03-17

在和文心一言侃大山的過程中,它時而瘋狂、時而理性,甚至學會“小聰明”。但可以感受到的是,這位不完美小孩正在悄悄努力,等待驚艷眾人。頂著GPT-4的壓力,百度在昨天推出自己的新一代大語言模型、生成式AI產品文心

2023-04-13

隻錯一個。我們也把同樣的問題翻譯成中文去提問百度的文心一言和阿裡的通義千問,10 道數學題,通義千問僅對 1 題,文心一言則對 4 題;10 道邏輯判斷,通義千問 3 題正確略勝一籌,文心一言 2 題正確屈居第二。不得不說,

2024-03-10

創始人李彥宏在央視2024《對話·開年說》節目中談到百度文心一言。李彥宏表示,文心一言4.0在中文上已經超過ChatGPT4.0。比如寫藏頭詩,現在很多大模型都能寫,但如果要求它寫一個《沁園春》詞牌的詞,ChatGPT 4.0就

2023-04-10

繼三周前百度“文心一言”開啟內測後,阿裡版類ChatGPT“通義千問”也終於上線,正式對外開放企業邀測。通義千問是由阿裡達摩院研發的AI聊天機器人,具備多輪對話、知識搜索、內容創作、表達觀點、撰寫代碼等能力。我們

2023-03-19

實現大躍遷,達到一個超越人類的水準。測試流程在百度文心一言發佈之後,我們第一時間獲得邀請碼,選擇在前文中測試 GPT-3.5 與 GPT-4 一致的題目、流程。詳細說明請參考前文。這裡不再囉嗦。簡而言之,我們挑選認知科學

2023-04-16

競技中,誰能最終脫穎而出,打造出中國的OpenAI?百度“文心一言”大語言模型被稱為中國版ChatGPT的百度“文心一言”於3月16日14:00在百度北京總部大樓正式發佈。百度在會上用PPT展示文心一言在文學創作、商業文案創作、數理

2023-04-01

們剛才所說,目前國內已經公開的大語言模型,其實隻有文心一言一個,而文心一言其實也沒有公開具體的訓練和參數細節。但從公開的信息可以知道,文心一言用的也是Transfomer架構,但隻是更偏向GoogleBERT的技術思路,而非Chat