Yandex開源LLM訓練工具節省高達20%的GPU資源


2024年6 月11 日,莫斯科——跨國科技公司Yandex 最近推出YaFSDP,這是一種用於訓練大型語言模型(LLM)的開源方法。YaFSDP是目前最有效的公開可用工具,用於增強GPU 通信並減少LLM 訓練中的內存使用量,與FSDP相比,其訓練速度提升最高可達26%,具體取決於架構和參數數量。通過使用YaFSDP 減少LLM 的訓練時間可以節省高達20% 的GPU 資源。

Yandex承諾為全球人工智能社區的發展做出貢獻,將YaFSDP開源提供給全球的LLM開發人員和人工智能愛好者即是履行此承諾的其中一步。

“目前,我們正在積極嘗試各種模型架構和參數大小,以擴展YaFSDP的多功能性,”Yandex高級開發專傢、YaFSDP團隊成員Mikhail Khruschev指出,“我們很高興與全球ML 社區分享我們在LLM訓練方面的研發成果,希望能為全球研究人員和開發者獲得更多的開源工具和更高的效率做出貢獻。”

YaFSDP案例

LLM訓練是一個耗時且資源密集的過程。機器學習工程師和自主開發LLM 的公司投入大量的時間和GPU資源(相當於金錢)來訓練這些模型。模型越大,其訓練所需的時間和費用就越高。

Yandex的YaFSDP優化學習速度和性能,使全球的AI開發人員在訓練模型時可以使用更少的計算能力和GPU 資源。例如,在涉及具有700億個參數之模型的預訓練場景中,使用YaFSDP 可以節省大約150 個GPU的資源,這意味著每月可以節省大約50 萬美元到150萬美元(取決於虛擬GPU 提供商或平臺)。

YaFSDP通過消除GPU通信效率低下來提升效能,確保訓練時隻需必要的處理器內存,並使GPU 交互不間斷。

YaFSDP的訓練效率

YaFSDP是FSDP 的增強版,在LLM訓練中最耗通信的階段(如預訓練、對齊和微調)中,其表現優於FSDP 方法。YaFSDP在Llama 2 和Llama 3上展示的最終提速表明訓練速度顯著提高,在Llama 2 70B 和Llama 3 70B 上分別達到21% 和26%。

MikhailKhruschev 表示:“YaFSDP在130 億至700億個參數的模型上表現出色,在300 億至700億個參數范圍內表現尤為驚人。目前,YaFSDP最適合基於LLaMA架構的廣泛使用之開源模型。”

YaFSDP並不是Yandex的第一個開源工具。該公司之前曾分享過其他幾款在ML 社區中很受歡迎的工具,包括:

CatBoost:一種高性能的基於決策樹之梯度提升庫。

YTsaurus:分佈式存儲和處理的大數據平臺。

AQLM:最先進的量化算法之一,用於大型語言模型的極限壓縮。由 Yandex Research、HSE 大學、 IST Austria 及 NeuralMagic 共同開發。

Petals:是一個旨在簡化 LLM 訓練和微調過程的庫,由 Yandex Research、HSE 大學、華盛頓大學、Hugging Face、巴黎-薩克雷高等經濟學院和 Yandex 數據分析學院合作開發。


相關推薦

2023-04-14

一可以過濾和標記類似於客戶可能希望參考或許可使用的開源代碼的代碼建議的編碼伴侶。CodeWhisperer對所有沒有個人用戶免費生成代碼,任何人都可以隻用一個電子郵件帳戶註冊CodeWhisperer,並在幾分鐘內提高工作效率,甚至不

2023-04-07

任過聯合創始人和CTO。VocodeVocode 使開發人員可以通過其開源庫輕松構建基於語音的 LLM 應用程序。他們為流式雙向對話(這對電話等實時應用程序很有用)和基於命令/基於回合的應用程序(例如基於語音的國際象棋)提供概述。該

2024-04-19

AI圈又迎來一件大事:Meta正式發佈他們迄今最強的新一代開源大語言模型Llama3。首批發佈的Llama38B和Llama370B包括預訓練和指令微調版本,8K上下文,在兩個24KGPU定制集群上使用15萬億tokens數據訓練而成,Meta稱它們分別是80億和700億

2023-11-14

能力。2. 🤖 Poro是首個計劃覆蓋歐盟所有24種官方語言的開源模型,由Silo AI的SiloGen和圖爾庫大學的TurkuNLP研究小組開發。3. 🌍 Poro使用跨語言訓練方法,利用來自高資源語言(如英語)的數據,旨在解決為歐洲低資源語言訓練性

2024-02-22

2月21日,在與閉源的OpenAI打得火熱的同時,Google突然加入開源的戰局。北京時間夜間Google突然宣佈,開源一個新的模型系列Gemma,這個模型使用與它最強的Gemini同源的技術,並且在一系列的標準測試上秒殺幾款今天最熱門的開源

2024-05-08

,比我們人類更有效。DrEureka是一個任何人都可以獲取的開源軟件包,用於使用大型語言模型(LLM)(如ChatGPT 4)訓練機器人執行現實世界中的任務。這是一個"模擬到現實"系統,也就是說,它在虛擬環境中使用模擬物理

2023-05-11

程序之後,Google加速其 AI 開發。該超級計算機面向希望訓練大型語言模型的客戶。Google為希望使用超級計算機的公司宣佈隨附的 A3 虛擬機實例。許多雲提供商現在都在部署 H100 GPU,NVIDIA 在 3 月份推出自己的 DGX 雲服務,與租用

2023-10-16

成果的質量。正如戴金權所說的那樣,“英特爾一直堅持開源開放,無論是從客戶側的產業界合作,還是從學術界的高校合作,英特爾都在持續推動,相信在多方的努力下,大模型技術的發展將會越來越好。”

2023-11-06

。在成立 7 個月後,這傢初創公司發佈它的第一個模型--開源 Yi-34B。李開復說,決定推出開放式 LLM 作為首款產品,是對社會的一種"回饋"。對於那些認為 LLaMA 是"天賜之物"的人來說,"我們提供一個令人信服的

2023-10-15

十月一節後第一天就有消息人士透露,百度正在加緊訓練文心大模型4.0,或將在10月17日舉行的百度世界大會上發佈。此前5月,文心大模型3.5版本已經發佈,不到半年,4.0上線在即,而且放在百度世界大會這樣的重頭戲上,外界

2024-02-22

昨日晚間,Google毫無預兆地發佈開源模型Gemma,直接狙擊Llama2,繼通過Gemini拳打OpenAI後,試圖用Gemma腳踢Meta。不同於Gemini的“全傢桶”路線,Gemma主打輕量級、高性能,有20億、70億兩種參數規模,能在筆記本電腦、臺式機、物聯

2022-08-05

碼消失之前做好歸檔工作。即便如此,考慮到諸多代碼被開源項目廣泛使用,大傢也很是擔心 GitLab 強推新政策的巨大負面影響。開源倡導者、開放 .NET 社區參與者 Geoff Huntley 批評道 —— GitLab 陷入“絕對的瘋狂”。源碼本身並

2024-02-27

一聲炸雷深夜炸響,谷歌居然也開源LLM?!這次,重磅開源的Gemma有2B和7B兩種規模,並且采用與Gemini相同的研究和技術構建。有Gemini同源技術的加持,Gemma不僅在相同的規模下實現SOTA的性能。而且更令人印象深刻的是,還能在關

2024-03-21

3月11日周一,馬斯克發推文說要在一周內開源Grok。眾多開發者等著盼著過一周,到周日Grok才正式將代碼推到開源社區。開源的Grok-1是一個基於Transformer架構的自回歸模型,參數規模達到3140億參數,是目前參數量最大的開源模型