百川智能推出Baichuan2-192K大模型 一次可輸入35萬個漢字


10月30日消息,百川智能發佈Baichuan2-192K大模型。其上下文窗口長度高達192K,能夠處理約35萬個漢字,是目前支持長上下文窗口最優秀大模型Claude2(支持100K上下文窗口,實測約8萬字)的4.4倍,更是GPT-4(支持32K上下文窗口,實測約2.5萬字)的14倍。

據悉,今年9月25日,百川智能已開放Baichuan2的API接口,正式進軍企業級市場,開啟商業化進程。此次Baichuan2-192K將以API調用和私有化部署的方式提供給企業用戶,目前百川智能已經啟動Baichuan2-192K的API內測,開放給法律、媒體、金融等行業的核心合作夥伴。


上下文窗口長度是大模型的核心技術之一,通過更大的上下文窗口,模型能夠結合更多上下文內容獲得更豐富的語義信息,更好的捕捉上下文的相關性、消除歧義,進而更加準確、流暢的生成內容,提升模型能力。

百川智能稱,Baichuan2-192K在Dureader、NarrativeQA、LSHT、TriviaQA等10項中英文長文本問答、摘要的評測集上表現優異,有7項取得SOTA,顯著超過其他長窗口模型。

此外,LongEval的評測結果顯示,在窗口長度超過100K後Baichuan2-192K依然能夠保持非常強勁的性能,而其他開源或者商用模型在窗口增長後效果都出現近乎直線下降的情況。

本次百川發佈的Baichuan2-192K通過算法和工程的極致優化,實現窗口長度和模型性能之間的平衡,做到窗口長度和模型性能的同步提升。

算法方面,百川智能提出一種針對RoPE和ALiBi動態位置編碼的外推方案,該方案能夠對不同長度的ALiBi位置編碼進行不同程度的Attention-mask動態內插,在保證分辨率的同時增強模型對長序列依賴的建模能力。在長文本困惑度標準評測數據PG-19上,當窗口長度擴大,Baichuan2-192K的序列建模能力持續增強。

工程方面,在自主開發的分佈式訓練框架基礎上,百川智能整合目前市場上所有先進的優化技術,包括張量並行、流水並行、序列並行、重計算以及Offload功能等,獨創一套全面的4D並行分佈式方案。該方案能夠根據模型具體的負載情況,自動尋找最適合的分佈式策略,極大降低長窗口訓練和推理過程中的顯存占用。

百川智能在算法和工程上針對長上下文窗口的創新,不僅是大模型技術層面的突破,對於學術領域同樣有著重要意義。Baichuan2-192K驗證長上下文窗口的可行性,為大模型性能提升開拓出新的科研路徑。

Baichuan2-192K現已正式開啟內測,以API調用的方式開放給百川智能的核心合作夥伴,已經與財經類媒體及律師事務所等機構達成合作,將Baichuan2-192K全球領先的長上下文能力應用到傳媒、金融、法律等具體場景當中,不久後將全面開放。

值得註意的是,Baichuan2-192K能夠一次性處理和分析數百頁的材料,對於長篇文檔關鍵信息提取與分析,長文檔摘要、長文檔審核、長篇文章或報告編寫、復雜編程輔助等真實場景都有助力作用。

據介紹,它可以幫助基金經理總結和解釋財務報表,分析公司的風險和機遇;幫助律師識別多個法律文件中的風險,審核合同和法律文件;幫助技術人員閱讀數百頁的開發文檔,並回答技術問題;還能幫助科員人員快速瀏覽大量論文,總結最新的前沿進展。


相關推薦

2023-11-07

Turbo的上下文長度也並非最長。一周前,百川智能發佈的Baichuan2-192K,上下文窗口長度為192K,能夠處理約35萬個漢字。開發助手OpenAI此次更新中,著重面向開發者推出Assistant API,使開發者能在應用中集成類似代理的AI體驗。這個A

2022-08-06

但是卻上線一款新表盤引起熱議。因為這是蘋果在手表中推出的第一款中文表盤,采用一、二、三......十二個漢字數字顯示時間,看起來非常的復古。用戶在更新系統之後,可以在Watch App中的字體排印中找到這款全新的表盤,這

2023-04-24

快科技4月24日消息,五筆輸入法被拋棄,你是不是認同,目前的現狀也確實是拼音輸入法是主流。為補上拼音輸入法的重要一環,騰訊、OPPO等廠商集體聯動,帶來漢字守護計劃(加速推進生僻字的數字化進程),就是支持包含

2023-03-16

響”,盡管沒有進一步解釋,但這同樣也暗指生成式人工智能所可能面對的更嚴肅的問題。04.有選擇地表達的“優秀”GPT-4推出後,我們都看到這一模型較上一代的優秀之處:GPT-4通過模擬律師考試,分數在應試者的前10% 左右;

2024-05-21

即使技術再領先的公司,大模型的訓練也是非常昂貴的。百川智能創始人CEO王小川也曾表示,每1億參數對應訓練成本在1.5到3萬人民幣之間。因此,一個千億級參數的模型單次訓練成本預估在三千萬至五千萬人民幣之間。Anthropic

2024-03-14

普遍反饋效果超出預期。基於此,此次Yi 大模型 API 正式推出3款模型,給開發者更多驚喜。目前,Yi 大模型API名額限量開放中,新用戶贈送60元。Yi 大模型 API 與 OpenAI API 完全兼容,開發者隻需修改少量代碼,可以平滑遷移。此

2023-10-31

個實現級別,於2023年8月1日起開始執行。實現級別1共27584個漢字;實現級別2包含實現級別1,此外,實現級別2還支持《通用規范漢字表》中的沒有包含在實現級別1之內的編碼漢字,共計 27780 個漢字。實現級別3包含實現級別2,

2023-04-16

0萬美元啟動資金後,4月10日,王小川官宣AI大模型公司“百川智能”;王慧文的 “光年之外”在A 輪融資後估值已達到10億美元。接下來大模型的熱潮將繼續。雖然沒有直接推出大模型產品,但騰訊已經發佈“國內性能最強的大模

2024-07-12

”,目前尚無共識。有一種說法是,智譜AI、月之暗面、百川智能、面壁智能,這四傢公司是新的“四小龍”,在6月中旬舉辦的2024智源大會上,四位CEO首次同臺,“四小龍”的說法就傳開。還有人說中國有“大模型五虎”:百川

2023-11-23

的說法。真的是這樣嗎?其實,9鍵和26鍵都不是最高效的輸入法,它們隻是我們對輸入工具的妥協。今天,就來詳細說一說手機鍵盤~手機鍵盤的9鍵和26鍵 分別是怎麼來的?網上之所以會有“老年人使用9鍵,年輕人使用26鍵”

2022-10-19

微軟今天向Windows11RP頻道推出新的預覽版更新,該更新僅做測試用途後續會逐漸推送到正式版頻道。目前各頻道的更迭順序是這樣的,先從發佈預覽頻道開始, 然後作為C/D類更新推送,最後合並到月度更新。所以現在推

2023-11-09

7月、8月、9月、10月榜單,拿下國產第一的分別是百度、百川智能、商湯、vivo。“登頂”“奪冠”“國內第一”,出現在這些廠商的宣傳中。有好事者發現,科大訊飛在5月9日“奪冠”時,SuperCLUE官網顯示的顧問成員中,排在最

2024-05-23

:在5月22日舉辦的Baichuan4模型及產品發佈媒體溝通會上,百川智能創始人兼CEO王小川在討論當前國內AI大模型領域備受矚目的“價格戰”現象時提出觀點。王小川表示,在中國市場,API服務並不適合創業公司。王小川認為,這一觀

2024-01-30

備案的超過8個AI大模型對外公佈,包括百度文心一言”、百川智能百川大模型”、商湯商量SenseChat、抖音(雲雀大模型)等等。截至目前,國內已經有超過40款AI大模型產品獲得備案審批,另外有超過240個大模型及AI技術項目進入