2024年6 月11 日,莫斯科——跨國科技公司Yandex 最近推出YaFSDP,這是一種用於訓練大型語言模型(LLM)的開源方法。YaFSDP是目前最有效的公開可用工具,用於增強GPU 通信並減少LLM 訓練中的內存使用量,與FSDP相比,其訓練速度提升最高可達26%,具體取決於架構和參數數量。通過使用YaFSDP 減少LLM 的訓練時間可以節省高達20% 的GPU 資源。
Yandex承諾為全球人工智能社區的發展做出貢獻,將YaFSDP開源提供給全球的LLM開發人員和人工智能愛好者即是履行此承諾的其中一步。
“目前,我們正在積極嘗試各種模型架構和參數大小,以擴展YaFSDP的多功能性,”Yandex高級開發專傢、YaFSDP團隊成員Mikhail Khruschev指出,“我們很高興與全球ML 社區分享我們在LLM訓練方面的研發成果,希望能為全球研究人員和開發者獲得更多的開源工具和更高的效率做出貢獻。”
YaFSDP案例
LLM訓練是一個耗時且資源密集的過程。機器學習工程師和自主開發LLM 的公司投入大量的時間和GPU資源(相當於金錢)來訓練這些模型。模型越大,其訓練所需的時間和費用就越高。
Yandex的YaFSDP優化學習速度和性能,使全球的AI開發人員在訓練模型時可以使用更少的計算能力和GPU 資源。例如,在涉及具有700億個參數之模型的預訓練場景中,使用YaFSDP 可以節省大約150 個GPU的資源,這意味著每月可以節省大約50 萬美元到150萬美元(取決於虛擬GPU 提供商或平臺)。
YaFSDP通過消除GPU通信效率低下來提升效能,確保訓練時隻需必要的處理器內存,並使GPU 交互不間斷。
YaFSDP的訓練效率
YaFSDP是FSDP 的增強版,在LLM訓練中最耗通信的階段(如預訓練、對齊和微調)中,其表現優於FSDP 方法。YaFSDP在Llama 2 和Llama 3上展示的最終提速表明訓練速度顯著提高,在Llama 2 70B 和Llama 3 70B 上分別達到21% 和26%。
MikhailKhruschev 表示:“YaFSDP在130 億至700億個參數的模型上表現出色,在300 億至700億個參數范圍內表現尤為驚人。目前,YaFSDP最適合基於LLaMA架構的廣泛使用之開源模型。”
YaFSDP並不是Yandex的第一個開源工具。該公司之前曾分享過其他幾款在ML 社區中很受歡迎的工具,包括:
CatBoost:一種高性能的基於決策樹之梯度提升庫。
YTsaurus:分佈式存儲和處理的大數據平臺。
AQLM:最先進的量化算法之一,用於大型語言模型的極限壓縮。由 Yandex Research、HSE 大學、 IST Austria 及 NeuralMagic 共同開發。
Petals:是一個旨在簡化 LLM 訓練和微調過程的庫,由 Yandex Research、HSE 大學、華盛頓大學、Hugging Face、巴黎-薩克雷高等經濟學院和 Yandex 數據分析學院合作開發。