百川智能推出Baichuan2-192K大模型一次可輸入35萬個漢字

2023-10-30 來自網易科技發表於業界精選

10月30日消息，百川智能發佈Baichuan2-192K大模型。其上下文窗口長度高達192K，能夠處理約35萬個漢字，是目前支持長上下文窗口最優秀大模型Claude2（支持100K上下文窗口，實測約8萬字）的4.4倍，更是GPT-4（支持32K上下文窗口，實測約2.5萬字）的14倍。

據悉，今年9月25日，百川智能已開放Baichuan2的API接口，正式進軍企業級市場，開啟商業化進程。此次Baichuan2-192K將以API調用和私有化部署的方式提供給企業用戶，目前百川智能已經啟動Baichuan2-192K的API內測，開放給法律、媒體、金融等行業的核心合作夥伴。

上下文窗口長度是大模型的核心技術之一，通過更大的上下文窗口，模型能夠結合更多上下文內容獲得更豐富的語義信息，更好的捕捉上下文的相關性、消除歧義，進而更加準確、流暢的生成內容，提升模型能力。

百川智能稱，Baichuan2-192K在Dureader、NarrativeQA、LSHT、TriviaQA等10項中英文長文本問答、摘要的評測集上表現優異，有7項取得SOTA，顯著超過其他長窗口模型。

此外，LongEval的評測結果顯示，在窗口長度超過100K後Baichuan2-192K依然能夠保持非常強勁的性能，而其他開源或者商用模型在窗口增長後效果都出現近乎直線下降的情況。

本次百川發佈的Baichuan2-192K通過算法和工程的極致優化，實現窗口長度和模型性能之間的平衡，做到窗口長度和模型性能的同步提升。

算法方面，百川智能提出一種針對RoPE和ALiBi動態位置編碼的外推方案，該方案能夠對不同長度的ALiBi位置編碼進行不同程度的Attention-mask動態內插，在保證分辨率的同時增強模型對長序列依賴的建模能力。在長文本困惑度標準評測數據PG-19上，當窗口長度擴大，Baichuan2-192K的序列建模能力持續增強。

工程方面，在自主開發的分佈式訓練框架基礎上，百川智能整合目前市場上所有先進的優化技術，包括張量並行、流水並行、序列並行、重計算以及Offload功能等，獨創一套全面的4D並行分佈式方案。該方案能夠根據模型具體的負載情況，自動尋找最適合的分佈式策略，極大降低長窗口訓練和推理過程中的顯存占用。

百川智能在算法和工程上針對長上下文窗口的創新，不僅是大模型技術層面的突破，對於學術領域同樣有著重要意義。Baichuan2-192K驗證長上下文窗口的可行性，為大模型性能提升開拓出新的科研路徑。

Baichuan2-192K現已正式開啟內測，以API調用的方式開放給百川智能的核心合作夥伴，已經與財經類媒體及律師事務所等機構達成合作，將Baichuan2-192K全球領先的長上下文能力應用到傳媒、金融、法律等具體場景當中，不久後將全面開放。

值得註意的是，Baichuan2-192K能夠一次性處理和分析數百頁的材料，對於長篇文檔關鍵信息提取與分析，長文檔摘要、長文檔審核、長篇文章或報告編寫、復雜編程輔助等真實場景都有助力作用。

據介紹，它可以幫助基金經理總結和解釋財務報表，分析公司的風險和機遇；幫助律師識別多個法律文件中的風險，審核合同和法律文件；幫助技術人員閱讀數百頁的開發文檔，並回答技術問題；還能幫助科員人員快速瀏覽大量論文，總結最新的前沿進展。

百川智能推出Baichuan2-192K大模型一次可輸入35萬個漢字

相關推薦

ChatGPT又變強 OpenAI會變成下一個蘋果嗎？

Apple Watch推出首個中文表盤：用十二個漢字顯示時間

放心淘汰五筆？拼音輸入法發力騰訊、OPPO等補上最後一環：生僻字字體包

關於GPT-4 這是14個被忽略的驚人細節

韓國出土千年青銅印章：刻有5個漢字

從“天價”到“骨折價”，大模型要變天

零一萬物發佈Yi大模型API開放平臺首批開放3款大模型

小米字體MiSans L3發佈：符合最新國標免費可商用

4月，國內大模型遍地開花

誰才是大模型“四小龍”？

9鍵和26鍵誰更好用？你的打字習慣已經“出賣”你……

微軟推出Windows 11 RP Build 22000.1163 修復打印隊列發生錯誤等問題

誰在“吊打”ChatGPT？

百川智能CEO王小川:在中國市場 API服務不適合創業公司

百川智能推出Baichuan2-192K大模型 一次可輸入35萬個漢字

相關推薦

百川智能推出Baichuan2-192K大模型一次可輸入35萬個漢字