AI 大模型競爭白熱化,算力優化才是“超車點”?


聲明:本文來自於微信公眾號 InfoQ(ID:infoqchina),作者 | 凌敏,授權站長之傢轉載發佈。

嘉賓 | 蔣曉維博士、戴金權

采訪 | 凌敏、李冬梅

作者 | 凌敏

算力是驅動人工智能產業發展的核心動力。在數據、算法和算力三大人工智能要素中,算力是將數據和算法真正通過硬件執行的基礎單元,並將數據、算法轉化為最終的生產力。

隨著 AI 技術的高速發展,以及 AI 大模型的廣泛應用,AI 算力需求正在快速增加,大概每隔3-4個月就會增加一倍。如今,對 AI 任務所需算力總量的度量單位已經進入 PD 時代(PetaFlops/s-day),即用每秒千萬億次的計算機完整運行一天消耗的算力總量作為度量單位。比如,特斯拉 FSD 全自動駕駛系統的融合感知模型訓練消耗的算力當量是500個 PD。

可以看到,在 AI 大模型時代,AI 領域的“軍備競賽”正從過去算法和數據層面的競爭,轉變為底層算力的競爭。機遇的背後,如何破解算力困局、實現算力優化,也是整個行業需要解決的課題。近日,InfoQ 采訪大禹智芯聯合創始人 /CTO、IEEE 國際頂會 HPCA 名人堂成員蔣曉維博士,英特爾院士、大數據技術全球 CTO 戴金權,以期探索 AI 大模型時代下的算力困局破解路徑,尋求算力優化最優解。

1AI 大模型時代,算力需求大爆發

作為 AI 的重要子領域,機器學習的發展最早可以追溯至20世紀50年代。2012年,AlexNet 首次引起廣泛關註,使得機器學習分支深度學習的熱度呈指數級上升。在傳統的機器學習和深度學習技術中,算力作為底層基礎設施扮演著至關重要的角色,不斷推動上層技術迭代創新。使得這些傳統技術在圖像識別、圖像分類、自然語言處理、廣告推薦、自動駕駛和圖像生成等領域愈加成熟,並在實踐中得到廣泛應用。

在 AI 領域,大傢關註的焦點主要包括各種各樣的數據集,以及諸如 Caffe、TensorFlow、PyTorch 等深度學習框架,還有像 Horovod 這樣的分佈式訓練框架。與此同時,底層芯片技術也在不斷演進發展。最早企業使用 CPU 進行訓練;隨後,GPU/GPGPU(通用 GPU)成為訓練和推理的標準設備;再到後來開始出現一些專用的 AI 芯片,比如谷歌的 TPU 芯片,以及國內的寒武紀等等。

2022年,AIGC 技術迎來應用大爆發,從 OpenAI 文本生成圖像系統 Dall-E2到 AI 繪畫神器 Stable Diffusion,AIGC 迅速火成“頂流”。

戴金權表示,AIGC 技術主要涵蓋兩類模型:一類是像 Stable Diffusion 這樣的擴散模型,它可以生成圖片、音頻、視頻等等;另一類是大語言模型,從語言模型角度來生成文本、對話等等。這兩種模型的需求不一樣,擴散模型更多是對計算的需求更高一些,而大語言模型更多是要求內存的帶寬和大小能夠支撐。很多時候一個比較大的大語言模型,是無法放到一張顯卡上同時運行的,可能需要更大的內存支持。

“從英特爾的角度來看,我們需要對不同的計算、內存、Transformer 註意力機制算子的要求,以及對模型進行壓縮,不管是稀疏化還是低精度等等,通過多樣化技術對它進行更好的支持。多模態是一個非常重要的方向,最終大模型追求的是這個模型不僅可以追求處理文本,還可以處理圖片、視頻等,不再是一個單一的算子,而是很多算子在模型裡同時存在,如何來提供這樣的支持,都是一些技術上的挑戰。”戴金權說道。

2022年11月,ChatGPT 橫空出世,成功掀起 AI 大模型熱潮。隨後,國內外陸續發佈多款 AI 大模型。

蔣曉維認為,這一波大語言模型熱潮與之前的機器學習和深度學習創新相比,確實存在諸多不同,並不斷刷新大傢的認知。“從 AlexNet、CNN+LSTM、VGG、ResNet,再到後來的 GAN 和最近的 Diffusion Model,以及 AIGC 領域的 Bert、GPT 等,這些模型領域的不斷迭代創新已經持續至少9年。ChatGPT 的出現實際上是過去9年各種技術棧有機結合後的一個積累和突破的過程。”

參數規模方面,GPT-3的參數規模是1750億。近日,“天才黑客”喬治·霍茲在接受采訪時透露,GPT-4參數高達1.76萬億,是 GPT-3的10倍。算力需求方面,有數據顯示,GPT-3的整個完整訓練需要3.14E11(TFLOPS)的每秒浮點運算量。OpenAI 首席執行官 Sam Altman 曾在接受采訪時指出,GTP-4需要的計算量為 GTP-3的10倍;GTP-5需要的計算量為 GTP-3的200-400倍。

大模型的背後離不開龐大算力的支撐,這種支撐通常來自於硬件與軟件兩方面。以英特爾為例,戴金權在接受采訪時表示,從算力角度來看,英特爾支持生成式 AI 的計算主要做兩方面工作:

  • 一是在硬件層面。得益於英特爾的 XPU 戰略,比如一個筆記本電腦也可以有一個強大的 XPU 平臺,有 CPU、集成顯卡、獨立顯卡,下一代還將有 VPU,利用不同的加速來對生成式 AI 進行運算的支撐。在數據中心端也是如此,第四代英特爾至強可擴展處理器內置的矩陣運算加速器(英特爾 AMX),還有英特爾數據中心 GPU Ponte Vecchio(PVC)、Gaudi 系列專用 AI 加速器。

  • 二是在軟件層面,利用軟件的技術將硬件的計算能力提供出來,包括與 TensorFlow、PyTorch、Hybrid Bonding 等開源軟件進行廣泛合作,與 OpenAI 合作的 AI 編譯器 Triton,以及和微軟合作優化的做大規模分佈式訓練的軟件棧 DeepSpeed 等等。

2如何破解 AI 算力困局?

龐大的算力需求也意味著需要高昂的訓練成本。根據英偉達的數據,GPT-3需要使用1024顆 A100芯片訓練長達一個月的時間,總成本約為460萬美元。而 GPT-4的訓練成本大約在1億美元左右,GPT-5的成本會更高。

毫無疑問,AI 大模型的訓練是一個“非常昂貴的過程”。所以也有觀點認為,算力成本是限制 AI 大模型和生成式 AI 發展的因素之一。

“除在軟件、模型和算法層面進行多維度的優化之外,CPU 通用計算領域的發展歷程可以為大模型算力領域的成本優化提供一些借鑒意義”。蔣曉維提到。在 CPU 通用計算領域,提升算力存在兩種模型,分別是“Scale up”(水平方向上擴展)和“Scale out”(垂直方向上擴展)。“Scale up”是指通過各種方式將一臺機器擴展到像小型機甚至大型機的規模,而“Scale out”是指通過由 CPU、內存、存儲等商業化部件構建單臺服務器,通過復制這些機器,並將這些機器以高性能的數據中心網絡互聯起來,再結合一些系統層面的技術將其構建成類似小型機的解決方案。傳統的小型機是“Scale up”的經典案例,以單路和雙路 x86服務器構建的數據中心則是“Scale out”的代表。

從“Scale up”到“Scale out”是通用計算領域經歷的一種發展過程。在國外,谷歌是一個早期的代表案例,而在國內,阿裡是最著名的代表。阿裡有一個著名的故事叫做“去 IOE”,即摒棄 IBM 的小型機、Oracle 的數據庫以及 EMC 的存儲,通過商用化的 x86服務器構建“Scale out”的數據中心。

蔣曉維認為,這或許是大型模型和 GPU 算力領域未來可能要走的路線。“目前我們仍然在走走’Scale up’這條路線,單 GPU 服務器越做越大、也越做越貴。而‘Scale out’的方式,我認為應該是維持一個最基本的小單元,可能包含 CPU 、GPU 和高性能互聯網卡,不同的芯片器件可以由不同的廠傢提供。英偉達的 Grace-Hopper superchip 目前是這種基本單元的代表方案。通過分佈式方式和高性能、高效的網絡將計算單元互聯起來是一種降低成本的可能途徑。現如今,數據中心的網絡延遲已經達到亞微秒級別,甚至是納秒級別,完全具備將計算單元高效互聯的能力。這是從‘Scale up’方式逐漸演變到‘Scale out’方式的一個維度。我們可以借鑒通用計算領域先前的一些經驗。”

此外,通過軟件來承擔一些高可用功能,如容錯等,以及尋找第二供應商,都是降低成本的關鍵手段。

算力優化探索與實踐

在降低算力成本之外,如何更好地利用算力、提升算力的效率也是業界亟待解決的問題。而如何將計算能力分佈式化、構建分佈式計算能力,正是算力優化的前提。

在過去,大傢對 AI 芯片領域的關註點主要集中在推理方面,但現在大模型使得人們更關註分佈式訓練,尤其是分佈式訓練集群的構建。因為單張卡無法滿足需求,所以需要構建分佈式訓練集群,通過高效的互聯將大量 GPU 連接起來。

除提升單個 GPU 芯片的能力之外,另一個核心問題是如何高效地將 GPU 單卡構建成分佈式訓練能力。這是當前大模型算力構建過程中一個非常核心的領域和技術。這需要超級計算網絡的能力和高性能網絡,以高效地互聯單個節點的 GPU 計算單元,並且還需要更高效的 CPU 與 GPU 協同能力。最近發佈的英偉達的 DGX GH200正是這些技術的巔峰體現。

蔣曉維認為,英偉達不僅僅是一傢 GPU 算力公司,同時也是一傢高性能網絡和 CPU 公司。“我們可以看下英偉達的核心技術。首先,它在芯片功能方面往往是采用最先進的制程技術,同時需要在最先進的制程支持下達到單 die 面積以及功耗和散熱的極限。因此,對於芯片設計領域以及制程的各個環節,都有非常高的要求。我認為這是第一個基礎,就是芯片設計領域,包括先進的制程技術,高計算能力的單卡芯片。在此基礎上,我們再構建多機多卡的訓練,將高效的單卡互聯起來。這就需要高性能網絡的能力,通過這種高性能網絡能力實現單卡性能的‘線性’理想狀況,同時在擴展性方面也有很高的基本要求。”

在過去的幾十年中,英偉達曾涉足 x86芯片組領域,並且在退出該業務後一直致力於 ARM CPU 的研發。目前,英偉達已經推出基於 ARM 架構的 Grace 芯片產品,並通過 NvLink C2C 能力在最近發佈的 Grace Hopper 超級芯片中實現高速高效的 GPU 和 CPU 之間的互聯。通過 NvLink 技術實現多個 CPU 芯片之間的互聯,以實現雙路甚至多路 CPU 架構。除此之外,在完成對 Mellanox 的收購之後,英偉達在高性能網絡領域的 Infiniband、RDMA、GDR 等技術也充分支持多 GPU 服務器節點直接的互聯,為“Scale out”的部署奠定基礎。

此外,英特爾和 AMD 也在同時在 CPU、GPU 和高性能網絡互聯技術領域具備強大能力。在 CPU 領域,英特爾和 AMD 都是行業領導者。在網絡領域,英特爾擁有自己的 Mount Evans(IPU),而 AMD 在收購 Pansando 後在 DPU 領域也獲得強大實力。在帶內 - 帶間互聯方面,英特爾通過 QPI 或 UPI 等技術實現 CPU 的多插槽互連能力。同時,它還有像 CXL 這樣的技術,可以實現加速器與 CPU 或內存與 CPU 之間的高效互連,以及自身功能所擁有的 EMIB(2.5D 封裝技術),實現芯片之間的互聯。而 AMD 則擁有 Hyper Transport 以及基於此的 Infinity Fabric 等核心技術,可以實現帶內 - 帶間芯片之間的高效互連。所有這些技術都為構建分佈式算力提供必要的基礎。

目前,英偉達的 DGX GH200產品已經達到極致水平,其擁有1.8萬個 CPU 核心、256個 GPU 和144T 內存,它們之間通過各種高速互聯技術有機地結合在一起。這種模式已經對分佈式訓練框架和模式產生重大影響。接下來的問題是,如何支持這種設備類型的操作系統?如何支持如此大規模的設備內存? 這些都是未來技術發展的方向和挑戰。

算力優化探索與實踐

在具體的算力優化探索與實踐中,蔣曉維表示,作為一傢 DPU 公司,大禹智芯關註的是分佈式集群算力模型領域的優化,主要集中在從單機單卡到多機規模的優化。

在分佈式訓練場景中,尤其是訓練大型模型如 GPT 時,通常需要使用成千上萬個 GPU。在這個過程中,大禹智芯將算力或芯片執行的計算分為兩個維度:

  • 第一個維度是純計算,即模型的前向傳播和反向傳播過程,主要在 GPU 上完成。

  • 另一個維度是耗費大量算力但不是 GPU 算力的部分,即訓練中的梯度下降過程,在分佈式 GPU 中,需要對參數進行全局約簡操作,以獲得最終的全局約簡結果。可以將這部分稱為訓練中的 I/O 部分,它主要消耗芯片的網絡資源而不是 GPU 算力。這部分也是大禹智芯產品關註的焦點。

在大型模型訓練中,當達到2000個 GPU 時,I/O 部分和計算部分的比例已經達到1:1。隨著 GPU 數量超過2000,I/O 部分所花費的時間和算力可能會超過計算部分。因此,大禹智芯專註在分佈式訓練中優化 I/O 部分,利用核心網絡技術能力來進行優化。

“在算力優化方面,我們有幾個核心技術:首先是我們支持高度靈活且可編程的硬件零擁塞控制技術,用於取代傳統以太網上的 RoCE v2協議。傳統協議在流量控制方面比較簡單單一,存在一些問題。我們的技術提供更靈活和可編程的解決方案,解決這些問題。第二,我們支持超低延遲特性。第三,我們支持用於分佈式訓練中的 MPI 消息傳遞這種集體通信。通過對各個維度進行大量硬件優化,並結合 RDMA 和 MPI,在訓練過程中實現與 InfiniBand 相當的性能。這些是我們在從單機單卡到分佈式訓練的過程中進行的算力網絡優化工作。”蔣曉維介紹道。

據解,目前在構建 GPU 算力網絡方面,大多數公司仍選擇使用 InfiniBand 網卡和交換機,其中主要使用兩種核心技術:一種是 RDMA(遠程直接內存訪問) 技術,通過 GPUDirect RDMA 來消除 CPU 在 I/O 層面上的控制角色,從而降低整個訓練過程中的 I/O 消耗。另一種技術是 SHARP(Scalable Hierarchical Aggregation and Reduction Protocol),這也是 Mellanox 的核心技術,通過 SHARP 技術來減少在分佈式算力過程中對網絡帶寬的消耗。

目前,大多數公司在構建算力網絡時仍基於英偉達的解決方案。然而,一些頭部互聯網公司已經開始在以太網上構建 GPU 算力網絡,不再完全依賴 InfiniBand 網絡。在這種情況下,一個核心問題是找到一個能夠完全替代 InfiniBand 上 RDMA 的技術。

英偉達除在 InfiniBand 上有 RDMA 技術之外,也有以太網上的 RDMA 技術,稱為 RoCE v2。然而,在許多頭部互聯網公司應用中,這種技術仍然存在一些問題,所以國際國內一些頭部互聯網公司已經開始研發自己的技術,用以取代 RoCE v2以太網上的 RDMA,並通過自研的方式實現更可靠的運行。他們能夠在有丟包的網絡環境中穩定地運行 RDMA,並將這項技術應用於 GPU 訓練集群中,這是一些行業內領先公司具備的核心能力。

“對於大禹智芯來說,我們的工作完全基於這些頭部公司的實踐和技術趨勢。我們也在致力於開發類似的產品,因為我們相信這些頭部公司的核心技術往往隻局限於他們自身的部署。但是,我們認為更廣泛的公司可能並不具備這樣的能力。像大禹智芯這樣的第三方芯片公司的價值就在於通過通用化的技術,為更廣泛的場景提供支持,並通過更普適的方式將這些技術落地。”蔣曉維說道。

3寫在最後:軟件算法設計的多樣化亦是關鍵

在分佈式算力構建方面,蔣曉維認為,構建分佈式算力網絡需要與芯片領域緊密結合,並且在每個單元上都需要應用先進的制程技術,以支持最大規模的帶寬。未來,需要重點考慮兩方面:

  • 首先是芯片產業的發展。這涉及到各種芯片 IP,例如 SerDes、PCIE 控制器等核心 IP,還有 EDA 工具和先進制程技術。這些都是構建各種算力的基本單元能力。

  • 其次是國內的各種 xPU 公司。目前,國內的 xPU 公司仍處於早期階段,各自為政,發展還比較零散。

“在國內,要在相對較短的時間內集合整個產業的力量共同實現目標,而不是通過一傢公司逐步發展各個領域的能力,可能需要采取某種方式來結合產業力量共同實現目標。在這方面,我認為有一個關鍵技術是芯片領域的芯片模塊化(Chiplet)技術,這是一項非常有潛力的技術。通過芯片模塊化,我們可以通過成本較低的封裝技術將不同的芯片模塊集成在一顆芯片上,從而實現讓每個領域的專業公司專註於其擅長的事情。另外,芯片模塊化本身還是一個相對較新的概念,例如芯片模塊化的標準化組織 UCIe 也剛剛成立不久。因此,在這個領域,國內與國外之間肯定存在差距,但差距並不是特別大,仍然有迎頭趕上的機會。”蔣曉維總結道。

展望未來,戴金權希望可以做到“AI 無所不在”,不管是在本地端、雲端還是邊緣端。從這個角度來看,從小尺寸設備擴展到大規模數據中心的 XPU 架構,是一個非常重要的、且能夠支持未來 AIGC 技術無所不在的需求的趨勢。從軟件的角度來看,現在的大模型基本上是以 Transformer 架構作為基礎構件,目前業界正在做大量的研究工作,探索 Transformer 架構對內存的需求,包括內存帶寬、內存容量以及計算需求如何進行更好的加速。從發展的眼光來看,至少 Transformer 這樣的大模型可能會有更大的尺寸,包括輸入上下文的擴展,將來可能是今天的幾倍、幾十倍甚至更高。這必然會對軟件算法的設計,比如低精度、低比特、壓縮、稀疏化,包括註意力機制設計等有不同的需求。

“所以,軟件算法設計的多樣化,是我們認為未來有助於滿足 AIGC 和大語言模型的算力需求的重要組成部分。這些需求可能會進一步引導我們未來的訓練、推理,以及芯片的架構等。此外,大模型還在快速發展當中,可能在更長的時間段,比如十年、幾十年的時間裡有很多的發展,有不同算法級別的發展,以及在不同場景適配的發展,這些都會對 AI 芯片,包括對所有計算的芯片、計算的能力帶來深遠的影響。”戴金權總結道。

采訪嘉賓

蔣曉維博士,大禹智芯聯合創始人 /CTO,入選 HPCA 名人堂,曾供職英特爾、阿裡、谷歌。是英特爾首顆超低功耗處理器 Quark D1000首席架構師、Edison SoC 芯片架構師。在阿裡工作期間,為國內首顆 x86CPU 的特性定制化工作帶領人、阿裡智能網卡團隊創建人、阿裡雲倚天710Arm CPU 的 IO 子系統首席架構師。曾擔任谷歌智能網卡團隊技術負責人,帶領團隊進行 IPU 在谷歌雲的研發部署工作。

戴金權,英特爾院士、大數據技術全球 CTO。負責領導英特爾全球(位於矽谷和上海)的工程團隊在高級大數據分析、分佈式機器學習和深度學習上的研發工作,以及和全球領先的研究機構(如 UC Berkeley AMPLab、RISELab 等)的技術合作。Apache Spark 項目的創始 committer 和項目管理委員會(PMC)委員,Apache MXNet 項目導師,BigDL 和 Analytics Zoo 項目創始人。


相關推薦

2023-05-25

每年618購物季都是手機廠商競爭激烈的時候,今年的618剛剛開始,價格戰就白熱化,紅米已經把Note 12 Turbo的頂配16G 1TB降至2399元,讓不少玩傢喊出真香。RedmiNote 12 Turbo首發高通驍龍7 處理器,與驍龍8 同宗同源,相同CPU架構、相

2023-05-17

據報道,谷歌上周發佈的最新大語言模型使用的訓練數據,幾乎是2022年的上一代模型的5倍。得益於此,該模型在編程、數學和創意寫作方面的表現更為優秀。谷歌是在其I/O開發者大會上發佈最新通用大語言模型PaLM2的。內部文

2023-01-30

高端的顯卡。據產業鏈消息稱,蘋果、AMD、NVIDIA在AI領域競爭白熱化,傳出近期同步對臺積電下急單,相關芯片將在4月後逐步產出。業界提到,從算力來看,當前AI芯片最成功應用的ChatGPT已導入至少1萬顆英偉達高端GPU。此外,

2023-03-22

更多人那裡獲得反饋意見。”上月,在微軟公司將ChatGPT模型融進搜索引擎“必應”的同一天,谷歌火速將仍處於內部測試階段的Bard進行線上和線下的產品展示。但沒想到Bard連連出錯,導致谷歌母公司Alphabet股價大跌。當時,谷

2022-09-13

方向和經濟效益的考量。自動駕駛已經不僅是企業之間的競爭,也是地區與地區之間的較量。大范圍落地的多重難題從蘇州北高鐵站出來,乘客很可能通過線上平臺叫到一輛自動駕駛車。它或許和其他車輛有著明顯的外觀區分—

2023-01-06

方向與趨勢,海量的產品數據、超大規模的數據訓練、大模型的應用等,都對算力提出更龐大的需求。基於火山引擎豐富的大數據積累和底層技術,MANAOASIS實現的計算、存儲、通訊能力,讓數據更快速轉化成知識,以實現將本增

2023-10-26

顯示,2023年第三季度中國智能手機市場溫和下跌5%,市場競爭白熱化。2023年第三季度,中國智能手機市場出貨連續兩個季度下跌平緩,同比下滑5%至6670萬部。榮耀憑借產品及渠道競爭力,以18%的市場份額重返第一,出貨1180萬部

2024-05-23

),作者:樟稻,授權站長之傢轉載發佈。最近,國內大模型市場經歷一場前所未有的價格戰。阿裡雲、字節跳動、百度、科大訊飛等重量級參與者紛紛調整策略,從大幅降價到完全免費開放,表明這場競爭已經進入白熱化階段

2024-03-07

SK海力士、三星電子和美光正在為HBM3E的主導地位展開激烈爭奪。在SK海力士壟斷HBM3市場的同時,隨著HBM供應短缺的出現,三星電子和美光正在全力爭奪下一代市場HBM3E市場的領先地位。“SK海力士、三星電子和美光中最先通過NVID

2024-09-18

:蕨影,授權站長之傢轉載發佈。2024年下半年,國產AI大模型並不好過。近期,AI代碼類應用cursor發佈,因其強大的編程功能,一時風頭無兩;緊接著openAI又於9月12日發佈最新模型chatGPT o1,在邏輯推理和編程能力上又提升到一個全

2023-11-14

兩款芯片還是互相兼容的。這意味著,使用H100訓練/推理模型的企業,可以無縫更換成最新的H200。全世界的AI公司都陷入算力荒,英偉達的GPU已經千金難求。英偉達此前也表示,兩年一發佈的架構節奏將轉變為一年一發佈。就在

2022-10-01

“我知道大傢都在爭論‘摩爾定律’(Moore’sLaw)是否死?答案是No!”北京時間9月28日凌晨,IntelInnovation2022開幕活動上,英特爾現任CEO帕特·基辛格(PatGelsinger)聲嘶力竭地表示,“摩爾定律”沒有死,它還活得好好的(Alivean

2023-11-04

隨著美國政府發佈新的AI法規,關於監管AI大模型一事最近又起爭議。北京時間11月2日凌晨,“ChatGPT之父”、OpenAICEO奧特曼(SamAltman)在英國劍橋參加活動時,遭到反AI活動的激進分子的強烈抵制,在大禮堂裡當面被“砸場子”

2024-09-20

播客節目裡,聽到MiniMax的植入......廣告投放,是當下大模型白熱化競爭中的一個切面。大模型廠商們希望獲得足夠多的用戶,講一個大模型原生應用的故事。但現實是,高額的成本、千萬級的用戶,都不足以支撐故事繼續。繞