阿裡雲發佈通義千問2.0 性能超GPT-3.5 正加速追趕GPT-4


10月31日消息,2023杭州雲棲大會上,阿裡雲首席技術官周靖人正式發佈千億級參數大模型通義千問2.0。在10個權威測評中,通義千問2.0綜合性能超過GPT-3.5,正在加速追趕GPT-4。當天,通義千問APP在各大手機應用市場正式上線,所有人都可通過APP直接體驗最新模型能力。


通義千問2.0發佈

周靖人介紹,過去6個月,通義千問2.0在性能上取得巨大飛躍,相比4月發佈的1.0版本,通義千問2.0在復雜指令理解、文學創作、通用數學、知識記憶、幻覺抵禦等能力上均有顯著提升。目前,通義千問的綜合性能已經超過GPT-3.5,加速追趕GPT-4。


通義千問2.0綜合性能超過GPT-3.5,正在加速追趕GPT-4

在MMLU、C-Eval、GSM8K、HumanEval、MATH等10個主流Benchmark測評集上,通義千問2.0的得分整體超越Meta的Llama-2-70B,相比OpenAI的Chat-3.5是九勝一負,相比GPT-4則是四勝六負,與GPT-4的差距進一步縮小。

中英文理解能力是大語言模型的基本功。英語任務方面,通義千問2.0在MMLU基準的得分是82.5,僅次於GPT-4,通過大幅增加參數量,通義千問2.0能更好地理解和處理復雜的語言結構和概念;中文任務方面,通義千問2.0以明顯優勢在C-Eval基準獲得最高得分,這是由於模型在訓練中學習更多中文語料,進一步強化中文理解和表達能力。

在數學推理、代碼理解等領域,通義千問2.0進步明顯。在推理基準測試GSM8K中,通義千問排名第二,展示強大的計算和邏輯推理能力;在HumanEval測試中,通義千問得分緊跟GPT-4和GPT-3.5,該測試主要衡量大模型理解和執行代碼片段的能力,這一能力是大模型應用於編程輔助、自動代碼修復等場景的基礎。

據介紹,通義千問更成熟,也更好用。通義千問2.0在指令遵循、工具使用、精細化創作等方面作技術優化,能夠更好地被下遊應用場景集成。通義大模型官網上線多模態和插件功能,支持圖片輸入、文檔解析等細分任務。

與此同時,基於通義大模型訓練的8大行業模型組團上線,分別是:通義靈碼-智能編碼助手、通義智文-AI閱讀助手、通義聽悟-工作學習AI助手、通義星塵-個性化角色創作平臺、通義點金-智能投研助手、通義曉蜜-智能客服、通義仁心-個人專屬健康助手、通義法睿-AI法律顧問。

8大行業模型面向當下最受歡迎的多個垂直場景,使用領域數據進行專門訓練。用戶可以在官網直接體驗模型功能,開發者可以通過網頁嵌入、API/SDK調用等方式,將模型能力集成到自己的大模型應用和服務中。


通義大模型傢族全面升級,8大行業模型組團上線

截至10月,阿裡雲已與60多個行業頭部夥伴進行深度合作,推動通義千問在辦公、文旅、電力、政務、醫保、交通、制造、金融、軟件開發等領域的落地。

周靖人透露,阿裡雲計劃近期開源通義千問72B版本,此前,阿裡雲已先後開源7B和14B版本模型,模型累計下載量超過100萬。阿裡雲將持續支持千行百業的開發者基於通義千問開源模型進行模型和應用創新。


圖:通義千問72B即將開源


相關推薦

2023-11-28

群體紛紛“翻墻”到註冊並體驗ChatGPT的同時,以百度、阿裡巴巴、科大訊飛以及360等為代表的互聯網大廠,以及瀾舟科技等少數佈局的初創企業,快速地推出自己的大模型產品。今年3月16日,百度大語言模型產品“文心一言”

2023-10-31

快科技10月31日消息,在2023雲棲大會上,阿裡雲CTO周靖人表示,面向智能時代,阿裡雲將通過從底層算力到AI平臺再到模型服務的全棧技術創新,升級雲計算體系,打造一朵AI時代最開放的雲。在現場,周靖人公佈雲計算基礎能力

2024-03-11

快科技3月10日消息,近日,阿裡巴巴集團CEO吳泳銘發文表示,大模型開啟全新的智能時代,引發人機交互、計算范式和認知協作三場革命,正在加快形成新質生產力、增強發展新動能。未來,人機交互革命將重構一切軟件,大模

2023-04-07

阿裡正式加入ChatGPT戰局!就在剛剛,阿裡版類ChatGPT突然官宣正式對外開放企業邀測。它叫通義千問,由達摩院開發。嗯,是大模型版十萬個為什麼那個味兒。事實上,早在這個月初,就傳出過不少阿裡要推出類ChatGPT的消息,不

2023-04-16

間已經遍地開花。繼百度打響國內大模型第一槍後,目前阿裡、京東、華為等互聯網大廠,商湯、昆侖萬維等科技公司也紛紛推出自傢的大模型,包括內容平臺知乎也在4月13日推出中文大模型“知海圖AI”。另一邊,王小川、王

2023-12-23

消息,國內首個官方大模型標準符合性評測”結果公佈。阿裡雲通義千問成為首批通過評測的四款國產大模型之一,在通用性、智能性等維度均達到國傢相關標準要求。據悉,本次通過評測的首批大模型中,通義千問是唯一的開

2023-04-13

我們也把同樣的問題翻譯成中文去提問百度的文心一言和阿裡的通義千問,10 道數學題,通義千問僅對 1 題,文心一言則對 4 題;10 道邏輯判斷,通義千問 3 題正確略勝一籌,文心一言 2 題正確屈居第二。不得不說,數理計算對

2023-04-11

快科技4月11日消息,在今日的阿裡雲峰會上,阿裡巴巴正式宣佈推出大語言模型通義千問。據阿裡雲智能首席技術官周靖人介紹,通義千問支持多輪對話,文案創作,邏輯推理,多模態理解,多語言支持。在視頻演示中,通過通

2023-12-18

中國創新力量50榜單(InnoForce 50)”,在人工智能領域,阿裡雲和華為雲成功入選。據介紹,本次評選對象為,在過去一年為泛計算機科學領域及其交叉領域帶來創新和突破的中國公司/機構。評選標準有創新性、實用性、社會責

2023-04-11

4月11日消息,2023阿裡雲峰會現場,阿裡巴巴集團董事會主席兼首席執行官、阿裡雲智能集團首席執行官張勇宣佈阿裡所有產品未來將接入大模型全面升級。張勇稱,讓AI更普及,是阿裡雲未來很長一段時間努力的方向和主旋律之

2024-09-18

看不到內容,我們已經在聯系官方目前也不知道原因。”阿裡高級算法專傢,通義千問團隊負責人林俊暘在事件發生後迅速在社交平臺辟謠。但這樣的回應並沒有讓AI相關從業者們滿意。在此之前,他們中的一些人剛經歷過Runway

2023-04-07

4月7日消息,阿裡雲宣佈自研大模型“通義千問”開始邀請用戶測試體驗。現階段該模型主要定向邀請企業用戶進行體驗測試,用戶可通過官網申請(tongyi.aliyun.com),符合條件的用戶可參與體驗。據悉,阿裡達摩院在NLP自然語

2023-11-01

通義千問,世超覺得自己閑逛時發現的產品,更有意思。阿裡通義官網裡,還有七大產品方向,比如代碼助手、客服等等。雖然大部分還是內測,都試用不。不過,世超一下開放的通義智文,文檔體驗比通義千問要好不少。這個

2024-03-28

,通義千問在離線情況下依然可以流暢運行多輪AI對話。阿裡雲方面表示,將和聯發科深度合作,向全球手機廠商提供端側大模型解決方案。聯發科是全球智能手機芯片出貨量最高的半導體公司,2023年第4季度出貨超1.17億部,蘋