谷歌推擁有26000個H100的超算 加速AI軍備競賽


雲提供商正在組建GPU大軍,以提供更多的AI火力。在今天舉行的年度GoogleI/O開發者大會上,Google宣佈一款擁有26,000個GPU的AI超級計算機——A3,這個超級計算機是Google與微軟爭奪AI霸權的鬥爭中投入更多資源進行積極反攻的又一證據。

這臺超級計算機擁有大約 26,000 個 NVIDIA H100 Hopper GPU。作為參考,世界上最快的公共超級計算機Frontier擁有 37,000 個 AMD Instinct 250X GPU。

對於我們最大的客戶,我們可以在單個集群中構建多達 26,000 個 GPU 的 A3 超級計算機,並正在努力在我們最大的地區構建多個集群,”Google發言人在一封電子郵件中說,並補充說“並非我們所有的位置都將是縮放到這麼大的尺寸。”

該系統是在加利福尼亞州山景城舉行的 Google I/O 大會上宣佈的。開發者大會已經成為Google許多人工智能軟件和硬件能力的展示。在微軟將 OpenAI 的技術應用於 Bing 搜索和辦公生產力應用程序之後,Google加速其 AI 開發。

該超級計算機面向希望訓練大型語言模型的客戶。Google為希望使用超級計算機的公司宣佈隨附的 A3 虛擬機實例。許多雲提供商現在都在部署 H100 GPU,NVIDIA 在 3 月份推出自己的 DGX 雲服務,與租用上一代 A100 GPU 相比價格昂貴。

Google表示,A3 超級計算機是對現有 A2 虛擬機與 NVIDIA A100 GPU 提供的計算資源的重大升級。Google正在將所有分佈在不同地理位置的 A3 計算實例匯集到一臺超級計算機中。

“A3 超級計算機的規模可提供高達 26 exaflops 的 AI 性能,這大大減少訓練大型 ML 模型的時間和成本,”Google的董事 Roy Kim 和產品經理 Chris Kleban 在一篇博客文章中說。

公司使用 exaflops 性能指標來估計 AI 計算機的原始性能,但批評者仍然對其持保留意見。在Google的案例中,被大傢詬病的是其結果在以 ML 為目標的 bfloat16(“brain floating point”)性能中計算出來的,這讓你達到“exaflops”的速度比大多數經典 HPC 應用程序仍然使用的雙精度 (FP64) 浮點數學要快得多要求。

GPU 的數量已經成為雲提供商推廣其 AI 計算服務的重要名片。微軟在 Azure 中的 AI 超級計算機與 OpenAI 合作構建,擁有 285,000 個 CPU 內核和 10,000 個 GPU。微軟還宣佈配備更多 GPU 的下一代 AI 超級計算機。Oracle 的雲服務提供對 512 個 GPU 集群的訪問,並且正在研究新技術以提高 GPU 通信的速度。

Google一直在大肆宣傳其TPU v4 人工智能芯片,這些芯片被用於運行帶有 LLM 的內部人工智能應用程序,例如Google的 Bard 產品。Google的 AI 子公司 DeepMind 表示,快速 TPU 正在指導通用和科學應用的 AI 開發。

相比之下,Google的 A3 超級計算機用途廣泛,可以針對廣泛的 AI 應用程序和 LLM 進行調整。Kim 和 Kleban 在博文中表示:“鑒於這些工作負載的高要求,一刀切的方法是不夠的——你需要專為 AI 構建的基礎設施。”

就像Google喜歡它的 TPU 一樣,NVIDIA 的 GPU 已經成為雲提供商的必需品,因為客戶正在 CUDA 中編寫 AI 應用程序,這是 NVIDIA 專有的並行編程模型。該軟件工具包基於 H100 的專用 AI 和圖形內核提供的加速生成最快的結果。


Google TPU v4

客戶可以通過 A3 虛擬機運行 AI 應用程序,並通過 Vertex AI、Google Kubernetes Engine 和 Google Compute Engine 服務使用 Google 的 AI 開發和管理服務。公司可以使用 A3 超級計算機上的 GPU 作為一次性租用,結合大型語言模型來訓練大型模型。然後,將新數據輸入模型,更新模型——無需從頭開始重新訓練。

Google的 A3 超級計算機是各種技術的大雜燴,以提高 GPU 到 GPU 的通信和網絡性能。A3 虛擬機基於英特爾第四代 Xeon 芯片(代號 Sapphire Rapids),與 H100 GPU 一起提供。目前尚不清楚 VM 中的虛擬 CPU 是否會支持 Sapphire Rapids 芯片中內置的推理加速器。VM 隨附 DDR5 內存。

NVIDIA H100 上的訓練模型比在雲端廣泛使用的上一代 A100 GPU 更快、更便宜。人工智能服務公司 MosaicML 進行的一項研究發現,H100 在其 70 億參數的 MosaicGPT 大型語言模型上“比 NVIDIA A100 的成本效益高 30%,速度快 3 倍”。

H100 也可以進行推理,但考慮到 H100 提供的處理能力,這可能被認為是矯枉過正。Google雲提供 NVIDIA 的 L4 GPU 用於推理,英特爾在其 Sapphire Rapids CPU 中擁有推理加速器。

“A3 VM 也非常適合推理工作負載,與我們的 A2 VM 的 A100 GPU 相比,推理性能提升高達 30 倍,”Google 的 Kim 和 Kleban 說。

A3 虛擬機是第一個通過名為 Mount Evans 的基礎設施處理單元連接 GPU 實例的虛擬機,該單元由Google和英特爾聯合開發。IPU 允許 A3 虛擬機卸載網絡、存儲管理和安全功能,這些功能傳統上是在虛擬 CPU 上完成的。IPU 允許以 200Gbps 的速度傳輸數據。

“A3 是第一個使用我們定制設計的 200Gbps IPU 的 GPU 實例,GPU 到 GPU 的數據傳輸繞過 CPU 主機並流經與其他 VM 網絡和數據流量不同的接口。與我們的 A2 虛擬機相比,這使網絡帶寬增加 10 倍,具有低尾延遲和高帶寬穩定性,”Google高管在一篇博客文章中說。

IPU 的吞吐量可能很快就會受到微軟的挑戰,微軟即將推出的配備 NVIDIA H100 GPU 的 AI 超級計算機將擁有該芯片制造商的 Quantum-2 400Gbps 網絡功能。微軟尚未透露其下一代 AI 超級計算機中 H100 GPU 的數量。

A3 超級計算機建立在源自公司 Jupiter 數據中心網絡結構的主幹上,該主幹通過光學鏈路連接地理上不同的 GPU 集群。

“對於幾乎每一種工作負載結構,我們都實現與更昂貴的現成非阻塞網絡結構無法區分的工作負載帶寬,”Google表示。

Google還分享說,A3 超級計算機將有八個 H100 GPU,它們使用 NVIDIA 專有的交換和芯片互連技術互連。GPU 將通過 NVSwitch 和 NVLink 互連連接,其通信速度約為 3.6TBps。Azure 在其 AI 超級計算機上提供相同的速度,並且兩傢公司都部署 NVIDIA 的電路板設計。

“每臺服務器都使用服務器內部的 NVLink 和 NVSwitch 將 8 個 GPU 互連在一起。為讓 GPU 服務器相互通信,我們在 Jupiter DC 網絡結構上使用多個 IPU,”一位Google發言人說。

該設置有點類似於 NVIDIA 的 DGX Superpod,它具有 127 個節點的設置,每個 DGX 節點配備八個 H100 GPU。

Google博客:配備 NVIDIA H100 GPU 的 A3 超級計算機

實施最先進的人工智能 (AI) 和機器學習 (ML) 模型需要大量計算,既要訓練基礎模型,又要在這些模型經過訓練後為它們提供服務。考慮到這些工作負載的需求,一種放之四海而皆準的方法是不夠的——您需要專為 AI 構建的基礎設施。

我們與我們的合作夥伴一起,為 ML 用例提供廣泛的計算選項,例如大型語言模型 (LLM)、生成 AI 和擴散模型。最近,我們發佈 G2 VMs,成為第一個提供新的 NVIDIA L4 Tensor Core GPU 用於服務生成式 AI 工作負載的雲。今天,我們通過推出下一代 A3 GPU 超級計算機的私人預覽版來擴展該產品組合。Google Cloud 現在提供一整套 GPU 選項,用於訓練和推理 ML 模型。

Google Compute Engine A3 超級計算機專為訓練和服務要求最嚴苛的 AI 模型而打造,這些模型為當今的生成式 AI 和大型語言模型創新提供動力。我們的 A3 VM 結合 NVIDIA H100 Tensor Core GPU 和 Google 領先的網絡技術,可為各種規模的客戶提供服務:

1. A3 是第一個使用我們定制設計的 200 Gbps IPU的 GPU 實例,GPU 到 GPU 的數據傳輸繞過 CPU 主機並流過與其他 VM 網絡和數據流量不同的接口。與我們的 A2 VM 相比,這可實現高達 10 倍的網絡帶寬,同時具有低尾延遲和高帶寬穩定性。

2. 我們行業獨一無二的智能 Jupiter 數據中心網絡結構可擴展到數萬個高度互連的 GPU,並允許全帶寬可重新配置的光學鏈路,可以按需調整拓撲。對於幾乎每種工作負載結構,我們實現的工作負載帶寬與更昂貴的現成非阻塞網絡結構沒有區別,從而降低 TCO。

3. A3 超級計算機的規模提供高達 26 exaFlops 的 AI 性能,這大大減少訓練大型 ML 模型的時間和成本。

隨著公司從訓練過渡到提供 ML 模型,A3 VM 也非常適合推理工作負載,與我們由 NVIDIA A100 Tensor Core GPU* 提供支持的 A2 VM 相比,推理性能提升高達 30 倍。

A3 GPU VM 專門為當今的 ML 工作負載提供最高性能的訓練,配備現代 CPU、改進的主機內存、下一代 NVIDIA GPU 和主要網絡升級。以下是 A3 的主要特點:

1. 8 個 H100 GPU,利用 NVIDIA 的 Hopper 架構,提供 3 倍的計算吞吐量

2. 通過 NVIDIA NVSwitch 和 NVLink 4.0,A3 的 8 個 GPU 之間的對分帶寬為 3.6 TB/s

3. 下一代第 4 代英特爾至強可擴展處理器

4. 2TB 主機內存,通過 4800 MHz DDR5 DIMM

5. 由我們支持硬件的 IPU、專門的服務器間 GPU 通信堆棧和 NCCL 優化提供支持的網絡帶寬增加 10 倍

A3 GPU VM 是客戶開發最先進的 ML 模型的一個進步。通過顯著加快 ML 模型的訓練和推理,A3 VM 使企業能夠快速訓練更復雜的 ML 模型,為我們的客戶創造機會來構建大型語言模型 (LLM)、生成 AI 和擴散模型,以幫助優化運營並在競爭中保持領先地位。

此次發佈基於我們與 NVIDIA 的合作夥伴關系,旨在為我們的客戶提供用於訓練和推理 ML 模型的全方位 GPU 選項。

NVIDIA 超大規模和高性能計算副總裁 Ian Buck 表示:“由下一代 NVIDIA H100 GPU 提供支持的 Google Cloud 的 A3 VM 將加速生成 AI 應用程序的訓練和服務。” “在Google雲最近推出 G2 實例之後,我們很自豪能夠繼續與Google雲合作,通過專門構建的人工智能基礎設施幫助全球企業轉型。”

對於希望在無需維護的情況下開發復雜 ML 模型的客戶,您可以在 Vertex AI 上部署 A3 VM,Vertex AI 是一個端到端平臺,用於在專為低延遲服務和高性能而構建的完全托管基礎設施上構建 ML 模型訓練。今天,在Google I/O 2023上,我們很高興通過向更多客戶開放 Vertex AI 中的生成 AI 支持以及引入新功能和基礎模型來構建這些產品。

對於希望構建自己的自定義軟件堆棧的客戶,客戶還可以在 Google Kubernetes Engine (GKE) 和 Compute Engine 上部署 A3 VM,以便您可以訓練和提供最新的基礎模型,同時享受自動縮放、工作負載編排和自動升級。

“Google Cloud 的 A3 VM 實例為我們提供計算能力和規模,可滿足我們最苛刻的訓練和推理工作負載。我們期待利用他們在 AI 領域的專業知識和在大規模基礎設施方面的領導地位,為我們的 ML 工作負載提供強大的平臺。” -Noam Shazeer,Character.AI 首席執行官

在Google雲,人工智能是我們的 DNA。我們應用數十年為 AI 運行全球規模計算的經驗。我們設計該基礎架構以擴展和優化以運行各種 AI 工作負載——現在,我們將其提供給您。


相關推薦

2023-05-17

據報道,谷歌上周發佈的最新大語言模型使用的訓練數據,幾乎是2022年的上一代模型的5倍。得益於此,該模型在編程、數學和創意寫作方面的表現更為優秀。谷歌是在其I/O開發者大會上發佈最新通用大語言模型PaLM2的。內部文

2024-04-07

曾試圖共同收購人工智能公司DeepMind,而該公司現已屬於谷歌。不過,據知情人士指出,xAI的融資條款尚未最終確定,因此該計劃還有可能發生變化。這輪計劃中的融資標志著人工智能領域競爭的加劇。近年來,領先的人工智能

2023-04-05

4月5日消息,當地時間周二,Alphabet旗下的谷歌公開一些新細節,展示用於訓練人工智能模型的超級計算機,稱其比英偉達A100芯片的系統更快、更節能。谷歌公司設計自己的定制芯片,稱為TensorProcessingUnit(TPU),並將這些芯片應用

2023-04-05

谷歌研究人員當地時間4月4日在線發表一篇論文,首次公佈用於訓練人工智能模型的超級計算機的技術細節,並宣稱該系統比英偉達的超算系統更快且功耗更低。谷歌新發表的這篇題為《TPUv4:用於機器學習的光學可重構超級計

2023-11-14

英偉達的高端芯片價值連城,已經成為貸款的抵押品。誰擁有H100,是矽谷最引人註目的頂級八卦至於H200系統,英偉達表示預計將於明年二季度上市。同在明年,英偉達還會發佈基於Blackwell架構的B100,並計劃在2024年將H100的產量

2023-03-24

先笑一下,谷歌自己開發的人工智能工具,居然主張分拆谷歌阻止壟斷?在反壟斷的問題上,谷歌剛剛開放公測的生成式AI Bard相當地大義滅親。本周二,谷歌宣佈生成式AI Bard推出Beta測試版,逐步分批向註冊

2023-02-06

2月6日消息,據外媒報道,在ChatGPT爆火之後,谷歌似乎也開始坐不住。當地時間周五,谷歌已向人工智能初創企業Anthropic投資約3億美元,後者正在測試ChatGPT的競爭產品。據解,通過這筆交易,谷歌將獲得Anthropic約10%的股份,後

2023-02-10

一個小小的錯誤,市值蒸發千億美元。投資者對谷歌是有多緊張?谷歌股價周三收盤暴跌7.4%,市值蒸發1000億美元,成為當天股價表現最差的科技公司。而導致谷歌股價大跌的直接原因竟然是,這傢搜索巨頭剛剛發佈的AI聊天工

2023-12-07

到400億美元、4500億美元,年復合增長率超過70%。AMD作為擁有最全解決方案的廠商,可以從各個角度滿足AI尤其是生成式AI對於超強算力、廣泛應用的需求:GPU方面有世界領先的EPYC處理器,GPU方面有不斷壯大的Instinct加速器,網

2023-11-19

指導這傢創業公司的前沿技術至關重要。矽谷風向變,AI軍備競賽已經開始,安全退居次席在技術和商業化上提速的不止OpenAI,整個矽谷都是如此。此前有傳言稱,Meta已經解散其2019年設立的負責任人工智能(RAI)團隊。本周日

2024-04-09

大概率將繼續開源。不過,Llama 3將需要面對表現強勁的谷歌Gemma,以及Mistral等一系列新秀模型的挑戰。此外,作為業內開源代表,Meta已經開始有意識地為Llama 2構建上下遊生態。去年12月,為對抗以OpenAI和谷歌為代表的閉源陣營

2023-02-25

力。盡管當前這些問題令人擔憂,但與如果這場競賽繼續加速下去可能出現的情況相比,它們就顯得微不足道。當前,大型科技公司做出的許多選擇恰恰映射他們曾經所做的選擇,可以說是一個毀滅性的連鎖反應。社交媒體是矽

2024-02-22

、Facebook與Instagram母公司Meta Platforms、特斯拉、微軟以及谷歌母公司Alphabet都是英偉達最大規模客戶,占其總營收規模近50%,它們當前正傾盡全力投資與人工智能算力相關的硬件,比如英偉達AI芯片。特斯拉CEO馬斯克將科技企業的

2024-04-16

性的技術變革中搶占制高點,而在這場競爭中略顯落後的谷歌,正在迎頭趕上。據媒體報道,Google旗下AI研究部門DeepMind首席執行官Demis Hassabis當地時間周一在溫哥華舉行的TED大會上表示,隨著時間的推移,Google將花費超過1000億