Meta兩個豪華AI集群曝光:每個配備2.4萬塊英偉達H100 價值幾十億


3月13日消息,美國時間周二,Facebook母公司Meta公佈兩個數據中心規模新集群的技術細節,它們各自擁有超過2.4萬個GPU,並在硬件、網絡、存儲、設計、性能和軟件等方面上,專為支持大型語言模型如Llama3進行訓練而深度優化。這兩個新集群基於Meta先前研究超級集群(RSC)的成功。RSC自2022年啟用以來,已展現出強大的計算力。

在硬件配置方面,每個集群都配備24576個英偉達Tensor Core H100 GPU(每個數萬美元),與之前使用的16000個英偉達A100 GPU相比有明顯提升,這將極大地促進自然語言處理、語音識別和圖像生成等人工智能研究和開發工作。

Meta表示,這種升級不僅在數量上有所增加,其性能上的躍進也將支持更大、更復雜的模型,為生成式人工智能產品的開發鋪平道路。

Meta計劃在2024年底之前,將其人工智能基礎設施擴大到高達35萬個H100 GPU。目標是擁有相當於近60萬個H100 GPU的算力。


雖然兩個新集群的GPU數量相同,但它們在網絡基礎設施方面各有差異,均支持400 Gbps端點之間的互聯。其中一個集群采用基於Arista 7800交換機配合Wedge400和Minipack2 OCP機架交換機的遠程直接內存訪問(RDMA)和融合以太網(RoCE)網絡解決方案,而另一個則應用英偉達Quantum2 InfiniBand網絡架構。

值得一提的是,兩個集群均基於Meta自研的開放GPU硬件平臺Grand Teton構建,這是公司為支撐大型AI工作負載而開發的GPU基礎硬件平臺。作為Zion-EX平臺的後續產品,Grand Teton在主機到GPU的帶寬、計算及數據網絡帶寬、以及功率包絡等方面都實現顯著的增強。

此外,這些集群充分利用Meta專為Grand Teton等方案設計的Open Rack電源和機架架構,提高數據中心的靈活性。

Meta的Open Rack v3硬件設計引入一個靈活的機架配置方案。與傳統的固定母線設計相比,它允許在機架中的任意位置安裝電源架,從而使機架配置更加靈活。

在建設這些新集群時,Meta特別關註每臺服務器吞吐量、機架數量減少及能源效率之間的平衡。通過對機架內服務器數量的定制化設計,Meta確保這些集群在提供高性能的同時,也達到能源的高效利用。

在存儲技術上,這些集群運用Linux Filesystem中的Userspace API,並得到Meta自傢Tectonic分佈式存儲方案的加持。與此同時,Meta還與Hammerspace合作,一道開發並行網絡文件系統(NFS)。

兩個集群均基於配備最新高容量E1.S SSD的YV3 Sierra Point服務器平臺。為優化網絡利用率,Meta進行網絡拓撲和路由的調整,並部署英偉達的集體通信庫(NCCL)。NCCL是一套針對英偉達GPU和網絡進行優化的標準通信例程庫。

Meta還在積極推進其PyTorch基礎AI框架的發展,以應對數十萬GPU的訓練需求。Meta的技術項目經理凱文·李(Kevin Lee)、生產網絡工程師阿迪·甘吉迪(Adi Gangidi)以及生產工程總監馬修·奧爾德姆(Mathew Oldham)在最新博客中共同表達公司的技術願景和戰略。他們強調,Meta將致力於人工智能軟件和硬件的開放式創新,啟動人工智能聯盟,建立一個開放的生態系統,“為人工智能開發帶來透明度、審查和信任,並帶來每個人都能從中受益的創新,這些創新以安全和責任為首要考慮因素”。

這篇博文繼續強調:“面對未來,我們意識到昨天和今天有效的方法可能無法滿足明天的需求。因此,Meta將不斷評估和改進其基礎設施的各個方面,從物理和虛擬層到軟件層等。我們的目標是創建一個既靈活又可靠的系統,以支撐快速發展中的新模型和研究工作。”


相關推薦

2024-04-09

GB200 Grace Blackwell 超級芯片,將一個基於 Arms 的 Grace CPU 與兩個 Blackwell B100 GPU 結合在一起。該系統可以部署一個包含27 萬億個參數的人工智能模型,在執行聊天機器人提供答案等任務時,速度有望提高30 倍。

2024-04-24

ace Blackwell 超級芯片。該芯片結合一個基於Arms的Grace CPU和兩個Blackwell B100 GPU,可以部署一個包含27萬億個參數的人工智能模型。此外,這款超級芯片在執行聊天機器人提供答案等任務時,速度有望提高30 倍。

2024-03-14

,其在國內市場的存貨相當有限。另外,A100分為80GB、40GB兩個顯存版本,顯存越大,所能運行的神經網絡越大,訓練大語言模型效果越好。廠商都想買80GB顯存版本的A100,導致存貨更加緊缺。因此,有一些黑心販子將A100的40GB版

2024-04-25

特曼以及DGXH200的合照。H200基於英偉達Hopper架構打造,並配備英偉達H200 Tensor Core GPU,處理速度為4.8TB/秒。H200擁有141GB的內存,與前代產品H100相比,H200的容量幾乎翻一番,運行大模型的綜合性能相比前代H100提升60%到90%。英偉達

2023-11-14

偉達GH200 Grace Hopper超級芯片,通過Quantum-2 Infiniband互聯。每個Grace CPU包含288個Neoverse內核, Jupiter的CPU就有近700萬個ARM核心。它能提供93 Exaflops的低精度AI算力和1 Exaflop的高精度(FP64)算力。這臺超級計算機預計將於2024年安裝完畢

2024-02-10

小紮表示,目前Meta內部正在訓練下一代模型Llama 3。在35萬塊H100上訓練的Llama 3,無法想象會有多大!Omdia的研究數據顯示,Meta在2023年H100的出貨量為15萬塊,與微軟持平,且是其他公司出貨量的3倍。小紮稱,“如果算上英偉達A100

2023-12-04

據市場跟蹤公司Omdia的統計分析,英偉達在2023年第三季度大約賣出50萬臺H100和A100GPU,此前,Omdia通過英偉達第二季度的銷售額,估計其大概賣出900噸GPU。據英偉達財報顯示,在本財年第三季度,Nvidia在數據中心硬件上獲得145億美

2023-11-15

倍,能效也提高1.9倍。與前代產品TPU V3相似,每個TPU V4由兩個張量核 (TC) 單元組成。每個TC單元由四個128x128矩陣乘法單元(MXU)、一個配備128個通道(每個通道包含16個ALU)的矢量處理單元(“VPU”)和16 MiB的矢量存儲器(“VMEM

2023-03-22

三代OVX服務器通過組合雙CPU平臺、BlueField-3 DPU、L40 GPU、兩個ConnectX-7SmartNIC和NVIDIASpectrum以太網平臺,提供突破性的圖形和AI性能,可加速大規模數字孿生模擬等應用,進而提高運營效率和預測性規劃功能。企業可以利用OVX性能在

2024-03-20

ll 來訓練該公司的駱駝模型。該公司目前正在上周宣佈的兩個GPU集群上訓練第三代模型,每個集群包含約24,000個H100 GPU。Meta 發言人表示,Meta 計劃繼續使用這些集群來訓練 Llama 3,並將 Blackwell 用於該模型的未來幾代。

2023-12-07

的全新MI300系列AI芯片,包括MI300A和MI300X芯片,瞄準這一英偉達主導的市場。AMD發佈的新款芯片擁有超過1500億個晶體管,新款芯片內存是英偉達H100產品的2.4倍,內存帶寬是H100的1.6倍。AMD將2027年AI加速器市場規模預期較8月時上調

2024-04-09

成相關訓練工作。馬斯克表示,訓練Grok 2模型需要大約2萬塊英偉達H100 GPU,而Grok 3模型及更高版本則將需要大約10萬塊英偉達H100 GPU。不過,馬斯克補充稱,盡管芯片短缺是迄今為止AI發展的一大制約因素,但在未來一兩年,電力

2024-03-28

達H100芯片。他表示,到2024年底,他的公司將擁有超過34萬塊英偉達H100 GPU。在人工智能人才的爭奪戰中,Meta龐大的芯片庫存成為其吸引和保留人才的重要資源。人工智能問答引擎Perplexity創始人兼首席執行官阿拉文德·斯裡尼瓦

2023-12-06

微軟和Meta位居榜首,雙雙從英偉達購買15萬塊H100GPU;騰訊購買5萬塊H800GPU,百度和阿裡巴巴分別購買3萬和2.5萬塊GPU。如果問一個模型開發人員,聖誕節最想要什麼禮物?他們的答案肯定是英偉達GPU。然而,英偉達GPU作為2023年最