國產AI大模型ChatGLM開測:為中文優化、支持國產CPU訓練


ChatGPT今天升級GPT-4模型,AI能力更加強大,國內在這方面也在迅速追趕,有國歌國產版ChatGPT問世,現在清華大學教授唐傑宣佈由該校AI成果轉化的ChatGLM開始內測。

據介紹,對話機器人 ChatGLM(alpha內測版:QAGLM),這是一個初具問答和對話功能的千億中英語言模型, 並針對中文進行優化,現已開啟邀請制內測,後續還會逐步擴大內測范圍。

與此同時,繼開源 GLM-130B 千億基座模型之後,我們正式開源最新的中英雙語對話 GLM 模型: ChatGLM-6B,結合模型量化技術,用戶可以在消費級的顯卡上進行本地部署(INT4 量化級別下最低隻需 6GB 顯存)。

經過約 1T 標識符的中英雙語訓練,輔以監督微調、 反饋自助、人類反饋強化學習等技術的加持,62 億參數的 ChatGLM-6B 雖然規模不及千億模型,但大大降低用戶部署的門檻,並且已經能生成相當符合人類偏好的回答。

ChatGLM 參考 ChatGPT 的設計思路,在千億基座模型 GLM-130B1 中註入代碼預訓練,通過有監督微調(Supervised Fine-Tuning)等技術實現人類意圖對齊。

ChatGLM 當前版本模型的能力提升主要來源於獨特的千億基座模型 GLM-130B。它是不同於 BERT、GPT-3 以及 T5 的架構,是一個包含多目標函數的自回歸預訓練模型。

2022年8月,我們向研究界和工業界開放擁有1300億參數的中英雙語稠密模型 GLM-130B1,該模型有一些獨特的優勢:

雙語: 同時支持中文和英文。

高精度(英文): 在公開的英文自然語言榜單 LAMBADA、MMLU 和 Big-bench-lite 上優於 GPT-3 175B(API: davinci,基座模型)、OPT-175B 和 BLOOM-176B。

高精度(中文): 在7個零樣本 CLUE 數據集和5個零樣本 FewCLUE 數據集上明顯優於 ERNIE TITAN 3.0 260B 和 YUAN 1.0-245B。

快速推理: 首個實現 INT4 量化的千億模型,支持用一臺 4 卡 3090 或 8 卡 2080Ti 服務器進行快速且基本無損推理。

可復現性: 所有結果(超過 30 個任務)均可通過我們的開源代碼和模型參數復現。

跨平臺: 支持在國產的海光 DCU、華為昇騰 910 和申威處理器及美國的英偉達芯片上進行訓練與推理。

2022年11月,斯坦福大學大模型中心對全球30個主流大模型進行全方位的評測2,GLM-130B 是亞洲唯一入選的大模型。

在與 OpenAI、谷歌大腦、微軟、英偉達、臉書的各大模型對比中,評測報告顯示 GLM-130B 在準確性和惡意性指標上與 GPT-3 175B (davinci) 接近或持平,魯棒性和校準誤差在所有千億規模的基座大模型(作為公平對比,隻對比無指令提示微調模型)中表現不錯(下圖)。

圖1. 斯坦福大學基礎模型中心對全球 30 個大模型的評測結果(2022年11月)


相關推薦

2023-04-23

友。例如官方GitHub問答中,有網友很想解它的中文能力和chatglm6b相比誰更好,下面有網友調侃:你是來砸場子的麼?這也是因為此前團隊在MOSS 002公開測試時曾經表示過,MOSS的中文能力不算太好,這也與訓練數據有關。除此之外

2024-04-01

部署的全流程。目前,無穹Infini-AI已經支持百川Baichuan2、ChatGLM2、ChatGLM3、ChatGLM3閉源模型、Llama2、Qwen、Qwen1.5等系列模型共20多個模型。摩爾線程是第一傢接入無問芯穹並成功完成千卡級別大模型訓練的國產GPU公司,“誇娥”(KUAE

2022-08-22

的AI,聽說在國外已經火很長一段時間。現在終於等到個 國產版的,那麼它到底好不好用呢?“文心·一格”的初體驗既然在這個圈子流行講中文,那咱就先從“中國風”開始上手。例如輸進去極具古典韻味的“江南水鄉”,然

2023-05-21

次亮相。同時,為充分發揮超算在算力方面的優勢,推動國產異構超級計算機平臺在AI應用開發和服務領域中的應用。國傢超算天津中心在大會上發佈天河E級智能計算開放創新平臺”和天河天元大模型”。據介紹,中文大語言模

2023-11-09

清華背景的智譜AI,迅速在國內第一個開源自己的大模型ChatGLM-6B。這個時間點非常早,當時國內廠商的大模型都還沒發佈,百度文心一言兩天後才推出,而王小川的百川智能公司還沒成立。三個月後的6月9日,跟智譜AI有著很深

2023-04-16

其和奇點智源合作自研、中國第一個真正實現智能湧現的國產大語言模型 ——“天工”3.5發佈在即,並將於4月17日啟動邀請測試。未來,“天工”4和“天工”5也將與大傢見面。“天工”大模型已經非常接近OpenAI ChatGPT的智能水

2023-01-08

美國GPU禁令引發的風雲之變讓國產GPU被推到聚光燈下。“數字經濟的崛起與繁榮,離不開算力的強大支撐,計算芯片已然成為全球科技競爭的焦點所在。”中國工程院院士倪光南曾說。伴隨國內政策、資本、人才以及應用的紅利

2023-11-07

歷近半年的厚積薄發,以穩定的節奏和全球齊平的研作為國產大模型, Yi-34B更“懂”中文。在C-Eval中文權威榜單排行榜上超越全球所有開源模型。對比大模型標桿GPT-4,在CMMLU、E-Eval、Gaokao 三個主要的中文指標上,Yi-34B 也具有

2024-01-31

消息,今天訊飛正式發佈星火開源-13B,這是首個基於全國產化算力平臺”飛星一號”的開源大模型。目前,華為昇思開源社區已正式上架星火大模型開源版-13B,面對學術、企業研究完全免費,增進學術合作的同時,增進產業探

2024-05-02

現在支持的AI模型列表正在不斷擴大,包括Google的Gemma、ChatGLM3,甚至還有OpenAI的CLIP模型,讓它更容易搜索機器上的照片。NVIDIA 在今年 2 月首次推出 ChatRTX,當時名為"Chat with RTX",它是一款演示應用,需要配備 8GB 或更大 V

2024-03-20

今晚,聯想中國官方宣佈,聯想首臺可搭載國產AI算力芯片的聯想問天WA5480G3服務器今日在合肥成功交付。聯想集團副總裁陳振寬表示:“聯想首臺國產AI服務器的問世,不僅緣於國產AI算力技術的逐步成熟,也得益於聯想與本土

2023-03-17

美國禁售高速GPU的背景下,國內GPU企業當自強。如今GPU的國產化進程如何?國產廠商又將面臨哪些機遇和挑戰?GPU:CPU的協處理器GPU,Graphic Processing Unit,即圖形處理單元,是計算機顯卡的核心。與CPU相比,GPU的邏輯運算單元較

2023-08-16

上,科大訊飛與華為聯合發佈星火一體機,讓企業可以在國產自主創新的平臺上,更方便、更自主、更安全可控地私有化部署大模型。科大訊飛董事長劉慶峰說:認知大模型深度賦能時代已經到來,健康發展急需構建安全可控保

2023-08-16

上,科大訊飛與華為聯合發佈星火一體機,讓企業可以在國產自主創新的平臺上,更方便、更自主、更安全可控地私有化部署大模型。科大訊飛董事長劉慶峰說:認知大模型深度賦能時代已經到來,健康發展急需構建安全可控保