32K上下文,Mistral 7B v0.2基模型突然開源


剛剛,MistralAI的模型又更新。這次開源一如既往的“突然”,是在一個叫做CerebralValley的黑客松活動上公佈的。PPT一翻頁,全場都舉起手機拍照:



這次開源的 Mistral 7B v0.2 Base Model ,是 Mistral-7B-Instruct-v0.2 背後的原始預訓練模型,後者屬於該公司的“Mistral Tiny”系列。

此次更新主要包括三個方面:

將 8K 上下文提到 32K;

Rope Theta = 1e6;

取消滑動窗口。


下載鏈接:https://models.mistralcdn.com/mistral-7b-v0-2/mistral-7B-v0.2.tar…

更新之後的性能對比是這樣的:


場外觀眾迅速跟進。有人評價說:“Mistral 7B 已經是同尺寸級別中最好的模型,這次改進是一個巨大的進步。 我將盡快在這個模型上重新訓練當前的許多微調。”


Mistral AI 的第一個 7B 模型發佈於 2023 年 9 月,在多個基準測試中實現優於 Llama 2 13B 的好成績,讓 Mistral AI 一下子就打出知名度。

這也導致目前很多開源大模型都已不再對標 Llama 2,而是將 Mistral AI 旗下的各系列模型作為直接競爭對手。

而 Mistral 7B v0.2 Base Model 對應的指令調優版本 Mistral-7B-Instruct-v0.2 在 2023 年 12 月就已開放測試,據官方博客介紹,該模型僅適用於英語,在 MT-Bench 上能夠獲得 7.6 分的成績,遜於 GPT-3.5。

此次開放基礎模型之後,開發者們就可以根據自己的需求對這個“當前最好的 7B 模型”進行微調。

不過,7B 模型隻能算是 Mistral AI 眾多驚艷成果中的一項。這傢公司的長遠目標是對標 OpenAI。

上個月底,Mistral AI 正式發佈“旗艦級”大模型 Mistral Large。與此前的一系列模型不同,這一版本性能更強,體量更大,直接對標 OpenAI 的 GPT-4。隨著 Mistral Large 上線,Mistral AI 推出名為 Le Chat 的聊天助手,也實現對標 ChatGPT。

而新模型的發佈,也伴隨著公司大方向的一次轉型。人們發現, Mistral Large 並不是一個開源大模型 —— 有跑分、 API 和應用,就是不像往常一樣有 GitHub 或是下載鏈接。

與 Mistral Large 發佈同時發生的,是 Mistral AI 與微軟達成長期合作的協議,不僅會將 Mistral Large 引入 Azure,還收獲微軟 1600 萬美元的投資。

Mistral AI 對路透社表示,作為交易的一部分,微軟將持有該公司少數股權,但未透露細節。未來,二者的合作主要集中在三個核心領域:

超算基礎設施:微軟將通過 Azure AI 超級計算基礎設施支持 Mistral AI ,為 Mistral AI 旗艦模型的 AI 訓練和推理工作負載提供一流的性能和規模;

市場推廣:微軟和 Mistral AI 將通過 Azure AI Studio 和 Azure 機器學習模型目錄中的模型即服務(MaaS)向客戶提供 Mistral AI 的高級模型。除 OpenAI 模型外,模型目錄還提供多種開源和商業模型。

人工智能研發:微軟和 Mistral AI 將探索為特定客戶訓練特定目的模型的合作。

當被問及公司是否正在改變其開源商業模式時,Mistral AI 聯合創始人 Arthur Mensch 在采訪中表示:“我們從開源模式開始,任何人都可以免費部署,因為這是廣泛分發它們並創造需求的一種方式。但從一開始,我們就提供一種具有優化模型的商業模式,這讓使該公司能夠為模型開發所需的昂貴研究提供資金。”

參考鏈接:https://twitter.com/MistralAILabs/status/1771670765521281370

首屆中國具身智能大會(CEAI 2024)即將於 2024 年 3 月 30 日至 31 日在上海徐匯西岸美高梅酒店舉行。

本次大會由中國人工智能學會(CAAI)主辦,CAAI 具身智能專委會(籌)、同濟大學、中國科學院計算技術研究所、上海交通大學、中國經濟信息社上海總部聯合承辦,全球高校人工智能學術聯盟協辦,機器之心獨傢 AI 媒體合作。

盛會將為具身智能領域的學術與產業界搭建一個交流合作的頂級平臺,以廣泛促進學術分享與交流、產業合作與互動,推動產學研聯動發展,提升我國具身智能技術的研究與應用水平。


相關推薦

2024-02-22

nsformer 解碼器,表 1 總結該架構的核心參數。模型訓練的上下文長度為 8192 個 token。此外,Google還在原始 transformer 論文的基礎上進行改進,改進的部分包括:多查詢註意力:7B 模型使用多頭註意力,而 2B 檢查點使用多查詢註意

2024-02-22

13B模型。它在數學/科學和編程相關任務上,通常也超過Mistral 7B模型的性能。Gemma-2B IT和Gemma-7B IT這兩個經過指令調整的模型版本,在基於人類偏好的安全評估中,都優於Mistral-7B v0.2指令模型。特別是Gemma-7B IT模型在遵循指令方面

2024-02-27

往往會產生許多誤報(因為它們僅通過匹配模式而不考慮上下文),這意味著研究者發現的個人信息量可能被高估。總的來說,Gemma模型在對話、邏輯推理、數學和代碼生成等多個領域,都有所提升。在MMLU(64.3%)和MBPP(44.4%)

2024-04-19

們近期的目標是讓 Llama 3 成為多語言、多模態、具有更長上下文的產品,並繼續提高推理和編碼等核心(大型語言模型)功能的整體性能,"Meta 在一篇博文中寫道。"還有很多事情要做"。

2024-04-22

024-28859 的咨詢。測試的失敗模型包括 GPT-3.5、OpenHermes-2.5-Mistral-7B、Llama-2 Chat (70B)、LLaMA-2 Chat (13B)、LLaMA-2 Chat (7B)、Mixtral-8x7B Instruct、Mistral (7B) Instruct v0.2、Nous Hermes-2 Yi 34B 和 OpenChat 3.5。2 、Nous Hermes-2 Yi 34B 和 OpenChat 3.5,但不包括

2024-02-22

16日大年初七,Google放出其大模型核彈——Gemini 1.5,並將上下文窗口長度擴展到100萬個tokens。Gemini 1.5 Pro可一次處理1小時的視頻、11小時的音頻、超過3萬行代碼或超過70萬字的代碼庫,向OpenAI還沒發佈的GPT-5發起挑戰。 (《GoogleG

2024-02-27

微軟宣佈與法國人工智能初創公司Mistral建立新的多年合作關系。據《金融時報》報道,微軟將在這傢成立10個月的人工智能公司中持有少量股份,而這距離微軟向其OpenAI合作夥伴關系投資100多億美元僅一年多一點時間,該公司估

2024-03-05

IBM宣佈在其watsonx人工智能和數據平臺上提供由MistralAI開發的流行開源Mixtral-8x7B大型語言模型(LLM),以繼續擴展功能,幫助客戶利用IBM自身的基礎模型和一系列開源提供商的模型。IBM提供Mixtral-8x7B的優化版本,在內部測試中,與普

2024-04-19

批發佈的Llama38B和Llama370B包括預訓練和指令微調版本,8K上下文,在兩個24KGPU定制集群上使用15萬億tokens數據訓練而成,Meta稱它們分別是80億和700億參數上最好的模型。同時一個參數超過400B的“最大Llama3”也在訓練中,社區認為

2024-02-27

商用系列的大杯,不開源,也不免費。主要亮點如下:32k上下文窗口支持多語言,代碼能力強,擅長推理原生支持函數調用和輸出JSON格式模塊化的審查控制機制在多項推理和知識能力測試中,成績僅次於GPT-4除此之外,並無更多

2024-04-19

,Meta 將陸續推出一系列具備多模態、多語言對話、更長上下文窗口等能力的新模型。其中,超 400B 的重量級選手更是有望與 Claude 3 超大杯“掰手腕”。又一 GPT-4 級模型來,Llama 3 開卷與前代 Llama 2 模型相比,Llama 3 可謂是邁上

2024-02-20

為每秒 480 個令牌,在業內處於領先地位。在 Llama 2 70B 等上下文長度為 4096 個令牌的模型中,Groq 每秒可提供 300 個令牌,而在上下文長度為 2048 個令牌的較小 Llama 2 7B 中,Groq LPU 每秒可輸出 750 個令牌。根據LLMPerf Leaderboard 的數

2024-02-27

位。(來源:Mistral AI)據悉,這個模型擁有3.2萬tokens的上下文窗口。按照一個token約等於0.75個英文單詞的慣用算法,Mistral Large能夠一次性從接近2.4萬個英文單詞的文檔中精確提取信息。公司介紹稱,該模型對英語、法語、西班

2024-04-03

驅動模式的影響”已經被悄悄刪掉。這似曾相識的一幕和Mistral AI在與微軟達成合作關系後的做法有點像。當時mistral AI也是被人發現移除網頁上“致力於開放模型”的使命描述,估計怕引起爭議,後來他們又把這句話加上定語 ‘