AMD MI300加速器深度揭秘:八路並行破億億次 全面超越NVIDIA


今年6月份,AMD在美國舊金山宣佈新一代AI/HPC加速器InstinctMI300系列,包括全球首款APU加速器MI300A、新一代GPU加速器MI300X。當時,AMD隻公佈一部分技術細節,對於CPU/GPU核心數量、性能/功耗/能效等指標均未提及,也缺乏足夠多的應用案例。現在,魔術師終於揭曉他全部的秘密。

北京時間12月7日凌晨,美國加州聖何塞,AMD Advancing AI大會上,AMD正式公佈Instinct MI300系列加速器的詳細規格與性能,以及眾多的應用部署案例,將AI人工智能、HPC高性能計算提升到新的層次。

AI人工智能概念的誕生已經有將近70年歷史,歷經長期演化,已經深入人們工作生活的各個角落,隻是很多時候感知性並沒有那麼強,更多時候人們是通過一些節點性時間感受AI的威力。

早期像是IBM深藍超級計算機戰勝國際象棋大師卡斯帕羅夫,近期像是AlphaGo與李世石和柯潔的圍棋大戰,最近最火爆的當然是ChatGPT引發的大語言模型、生成式AI浪潮。

坦白說,大語言模型眼下似乎有些過熱,但從技術和前景的角度而言,AI絕對是未來,不管它以什麼形勢體現,這都是大勢所趨,也是一個龐大的市場,尤其是對算力的需求空前高漲。

一年前,AMD內部估計全球數據中心AI加速器市場在2023年的規模可達約300億美元,今後每年的復合增長率都能超過50%,到2027年將形成超過1500億美元的價值,不可限量。

如今看來,這個數據太保守,AMD已經將2023年、2027年的數據中心AI加速器市場規模預期分別調高到400億美元、4500億美元,年復合增長率超過70%。

AMD作為擁有最全解決方案的廠商,可以從各個角度滿足AI尤其是生成式AI對於超強算力、廣泛應用的需求:

GPU方面有世界領先的EPYC處理器,GPU方面有不斷壯大的Instinct加速器,網絡方面則有Alveo、Pensando等技術,軟件方面還有ROCm開發平臺,從而形成一個有機的、完整的解決方案。

AMD早期的計算加速器底層技術都來自和遊戲顯卡相同的RDNA架構,顯然缺乏針對性,於是誕生專門針對計算的CDNA架構。

第一代產品Instinct MI100系列是AMD首個可為FP32/FP64 HPC負載提供加速的專用GPU,第二代產品Instinct MI200系列則快速進化,在眾多超算系統中占據一些之地。

第三代的Instinct MI300系列基於CDNA3架構,分為數據中心APU、專用GPU兩條路線,重點提升統一內存、AI性能、節點網絡等方面的表現,再加上先進封裝、更高能效,以滿足生成式AI的強勁需求。

Instinct MI300X:1920億晶體管怪獸 完勝NVIDIA H100

Instinct MI300X屬於傳統的GPU加速器方案,純粹的GPU設計,基於最新一代CDNA3計算架構。

它集成八個XCD加速計算模塊(Accelerator Compute Die),每一個XCD擁有38個CU計算單元,總計304個單元。

每兩個XCD為一組,在它們底部放置一個IOD模塊,負責輸入輸出與通信連接,總共四個IOD提供多達七條滿血的第四代Infinity Fabric連接通道,總帶寬最高896GB/s,還有多達256MB Infinity Cache無限緩存。

XCD、IOD外圍則是八顆HBM3高帶寬內存,總容量多達192GB,可提供約5.3TB/s的超高帶寬。

AI/HPC時代,HBM無疑是提供高速支撐的最佳內存方案,AMD也是最早推動HBM應用和普及的。

以上所有模塊,都通過2.5D矽中介層、3D混合鍵合等技術,整合封裝在一起,AMD稱之為3.5D封裝技術。

總計晶體管數量多達1530億個,其中XCD計算核心部分是5nm工藝,負責中介、互連的部分則是6nm工藝。

順帶一提,結構示意圖中位於HBM內存之間的小號矽片,一共八顆,並無實際運算和傳輸作用,而是用於機械支撐、保證整體結構穩定。

MI300X的各項性能指標都可以勝出NVIDIA H100(H200已宣佈但要到明年二季度才會上市所以暫時無法對比),還有獨特的優勢。

HPC方面,MI300X FP64雙精度浮點矩陣、矢量性能分別高達163.4TFlops(每秒163.4萬億次計算)、81.7TFlops,FP32單精度浮點性能則都是163.4TFlops,分別是H100的2.4倍、無限倍、2.4倍、2.4倍——H100並不支持FP32矩陣運算。

AI方面,MI300X TF32浮點性能為653.7TFlops,FP16半精度浮點、BF16浮點性能可達1307.4TFlops,FP8浮點、INT8整數性能可達2614.9TFlops,它們全都是H100的1.3倍。

TF32即Tensor Float 32,一種新的浮點精度標準,一方面保持與FP16同樣的精度,尾數位都是10位,另一方面保持與FP32同樣的動態范圍(指數位都是8位)。

BF16即Bloat Float 16,專為深度學習而優化的浮點格式。

另外,同樣適用HBM3高帶寬內存,MI300X無論容量還是帶寬都完勝H100,而整體功耗控制在750W,相比H100 700W高一點點。

更進一步,AMD還打造MI300X平臺,由八塊MI300X並聯組成,兼容任何OCP開放計算標準平臺。

這樣一來,在單個服務器空間內,就總共擁有2432個計算單元、1.5TB HBM3內存、42.4TB/s內存帶寬。

性能更是直接飛升,BF16/FP16浮點性能甚至突破10PFlops,也就是超過1億億次計算每秒,堪比中等規模的超級計算機。

對比同樣八顆H100組成的計算平臺H100 HXG,它在計算性能、HBM3容量上也有不少的優勢,而在帶寬、網絡方面處於相當的水平。

尤其是每顆GPU可運行的大模型規模直接翻倍,可以大大提升計算效率、降低部署成本。

實際應用性能表現方面,看看AMD官方提供的一些數據,對比對象都是H100。

通用大語言模型,無論是中等還是大型內核,都可以領先10-20%。

推理性能,都是八路並聯的整套服務器,1760億參數模型Bloom的算力可領先多達60%,700億參數模型Llama 2的延遲可領先40%。

訓練性能,同樣是八路服務器,300億參數MPT模型的算力不相上下。

總的來說,無論是AI推理還是AI訓練,MI300X平臺都有著比H100平臺更好的性能,很多情況下可以輕松翻倍。

產品強大也離不開合作夥伴的支持,MI300X已經贏得多傢OEM廠商和解決方案廠商的支持,包括大傢耳熟能詳的慧與(HPE)、戴爾、聯想、超微、技嘉、鴻佰(鴻海旗下/富士康同門)、英業達、廣達、緯創、緯穎

其中,戴爾的PowerEdge XE9680服務器擁有八塊MI300X,聯想的產品2024年上半年登場,超微的H13加速器采用第四代EPYC處理器、MI300X加速器的組合。

在基礎架構中引入MI300X的合作夥伴也相當不少,包括:Aligned、Arkon Engergy、Cirrascale、Crusoe、Denvr Dataworks、TensorWare,等等。

客戶方案方面,比如微軟的Azure ND MI300X v5系列虛擬機,比如甲骨文雲的bare metal(裸金屬) AI實例,比如Meta(Facebook)數據中心引入以及對於ROCm 6 Llama 2大模型優化的高度認可,等等。

Instinct MI300A:全球首個融合計算APU 沖擊二百億億次

如果說MI300X是傳統GPU加速器的一次進化,MI300A就是一場革命,CPU、GPU真正融合的方案目前隻有AMD可以做到。

相比之下,NVIDIA Grace Hopper雖然也是CPU、GPU合體,但彼此是獨立芯片,需要通過外部連接,放在一塊PCB板上,層級上還差一個檔位。

Intel規劃的融合方案Falcon Shores因為各方面原因已經暫時取消,短期內還是純GPU,未來再沖擊融合。

MI300A是全球首款面向AI、HPC的APU加速器,同時將Zen3 CPU、CDNA3 GPU整合在一顆芯片之內,統一使用HBM3內存,彼此全部使用Infinity Fabric高速總線互聯,從而大大簡化整體結構和編程應用。

這種統一架構有著多方面的突出優勢:

一是統一內存,CPU、GPU彼此共享,無需重復拷貝傳輸數據,無需分開存儲、處理。

二是共享無限緩存,數據傳輸更加簡單、高效。

三是動態功耗均衡,無論算力上側重CPU還是GPU,都可以即時調整,更有針對性,能效也更高。

四是簡化編程,可以將CPU、GPU納入統一編程體系,進行協同加速,無需單獨進行編程調用。

MI300A有六個XCD模塊,總計228個計算單元,另外兩個在MI300X上屬於XCD的位置換成三個CCD,總計24個CPU核心,後者和第四代EPYC 9004系列的CCD一模一樣,直接復用。

四個IOD、256MB無限緩存、八顆HBM3內存、3.5D封裝則都是和MI300X完全一致,唯一區別就是HBM3內存從12H堆疊降至8H堆疊,單顆容量從24GB降至16GB,總容量為128GB,但這不影響帶寬是同樣的5.3TB/s。

晶體管總量1460億個,其中XCD、CCD工藝都是5nm,中介、互連部分還是6nm,對外為獨立的Socket封裝接口。

性能方面,MI300A FP64矩陣/矢量、FP32矢量表現都是HJ100的1.8倍(都不支持FP32矩陣),TF32、FP16、BF16、FP8、INT8則都是旗鼓相當。

其中,FP64矩陣、FP32/矢量性能都是122.6TFlops,FP64矢量性能則是61.3TFlops,都相當於MI300X的75%。

TF32性能493.0TFlops,FP16、BF16性能980.6TFlops,FP8、INT8性能1961.2TFlops,同樣也是MI300X的75%。

為什麼都是75%?因為XCD模塊少1/4,GPU核心自然就減少1/4,換言之這裡都是GPU性能,沒有包括CPU部分。

MI300A的整體功耗在550-760W范圍內,具體看頻率的不同規格設定。

對比H100,MI300A隻需550W功耗就能在OpenFOAM高性能計算測試中取得多達4倍的優勢,不同實際應用中可領先10-20%。

對比最新的GH200,MI300A 760W峰值功耗下的能效優勢,更可以達到2倍。

MI300A已經在美國勞倫斯利弗莫爾國傢實驗室的新一代超級計算機El Capitan中安裝。

它的設計目標是成為全球第一套200億億次超算,這也是第二套基於AMD平臺的百億億次級超算。

MI300A的OEM和方案合作夥伴陣容也在不斷擴大,目前已有慧與、Eviden(隸屬法國Atos)、技嘉、超微。

其中,慧與EX255a是首個基於MI300A的超算加速器刀片服務器,將於2024年初上市。

目前,AMD Instinct系列加速器已經在眾多企業、高校、科研機構得到應用,尤其是在超級計算機領域初露崢嶸,11月份發佈的最新一期超算500排行榜上拿下前25名的5個席位,比如第一名的美國橡樹嶺國傢實驗室Frontier、第五名的芬蘭LUMI,都應用MI250X。

同時,Instinct加速器還占據綠色超算500排行榜上前10名中的7個席位,包括6個MI250X、1個MI210,其中Frontier TDS第二、LUMI第三,足可見其高能效。

這也是AMD 30x25目標的一個重要節點——AMD致力於在2020-2025年間將服務器處理器、AI/HPC加速器的能效提升多達30倍。

軟件生態:ROCm 6全面進化 軟硬結合提速8倍

好馬配好鞍,一如遊戲顯卡必須有驅動程序配合才能釋放性能潛力,AI/HPC加速器的發揮也離不開開發平臺和工具的全力輔佐。

AMD ROCm就是這樣的一套開放軟件平臺,如今來到全新一代ROCm 6。

它重點針對大語言模型額和生成式AI進行優化和提升,以及強化支持開放開源、拓展生態支持、加入更多AI庫等等。

比如在大語言模型優化方面,支持開源大模型推理加速框架vLLM,並優化推理庫,延遲性能提升可達2.6倍;

支持的高性能圖形分析與學習框架HIP Graph,優化運行時,延遲性能可提升1.4倍;

支持高效內存的註意力算法Flash Attention,優化內核,延遲性能可提升1.3倍。

新一代硬件加新一代開發平臺的威力是相當猛的,比如MI300X、ROCm 6的組合相比於MI250X、ROCm 5,運行270億參數Llama 2大模型推理,延遲性能可改善多達8倍!

當然,ROCm 6平臺也會陸續支持老平臺硬件,進一步挖掘潛力。

而對標競品,比如130億參數的Llama 2大模型,MI300X的延遲性能相比H100可以領先20%。

生態支持方面,ROCm 6也在快速拓展,尤其是基於AMD一貫以來的開放開源路線,一方面積極為開源社區貢獻自己的開發庫,另一方面可以充分利用各種開放開源的AI模型、算法和框架,包括Hugging Face、PyTorch、TensorFlow、Jax、OAI Triton、ONNX,等等。

其中,OpenAI會在即將發佈的Triton 3.0版本中正式支持AMD GPU,未來和你對話的ChatGPT背後可能就是AMD Instinct在驅動。

總的來看,AMD新一代Instinct MI300X/MI300A加速器在硬件上有著藝術級的精妙設計和世界領先的計算性能、能效,尤其是真正融合的APU走在行業的最前列,開拓全新的可能。

再加上EPYC CPU處理器、網絡方案的配合,為生成式AI推理、訓練和應用提供強大的算力平臺基礎。

在軟件開發、生態合作上,AMD同樣積極與時俱進,開放擁抱社區、擁抱產業,簡化開發與應用流程,大大增強自身競爭力,前途無量,值得期待。


相關推薦

2023-11-14

但沒有最強,隻有更強。現在,NVIDIA又發佈全新的HGXH200加速器,可處理AIGC、HPC工作負載的海量數據。NVIDIAH200的一大特點就是首發新一代HBM3e高帶寬內存(疑似來自SK海力士),單顆容量就多達141GB(原始容量144GB但為提高良率屏蔽一

2023-11-16

步,歷年罕見。AMD EPYC 7A53 64核心處理器、Instinct MI250X GPU加速器組成的頂級超算“Frontier”繼續穩居榜首,並實現霸氣的四連冠,依然是迄今唯一一套公開的完全通過驗證並投入實用的百億億次級超算。圖源:AMD2022年6月,Frontier

2023-01-05

市,首發可能用於美國新一代超算El Capitan,性能沖上200億億次,比當前TOP500最強超算Frontior性能提升一倍,後者也是基於AMD CPU及GPU的超算。

2022-08-23

緩存、128GB HBM2e高帶寬內存,支持PCIe 5.0,可以四路甚至八路並聯。Intel給出的最新數據聲稱,Ponte Vecchio FP32單精度、FP64雙精度性能可達52TFlops,TF3.2浮點性能可達419TFlops,BF16、PF16浮點性能可達839TFlops,INT8整數性能則可達1678Tops

2023-02-03

超算領域大放異彩。這就是“InstinctMI300”,AMD的新一代加速器/計算卡,號稱全球第一款數據中心整合CPU+GPU,一改以往Instinct系列產品隻有GPU的設計,首次采用融合架構。AMD CEO蘇姿豐近日確認,Instinct MI300將在今年下半年正式推

2022-10-10

,使用AMDEPYCTrentoCPU和InstinctMI550XGPU加速卡。為構建這套百億億級(Exascale)超算系統,ORNL還選用HPE的Slingshot連接方案。據悉,HPE的CrayEX架構,是專為大型應用程序而創建的。如果一切順利,Frontier將於2023年起向研究人員開放訪問

2024-03-29

快科技3月28日消息,NVIDIA AI GPU加速卡雖然無論性能還是市場都遙遙領先,AMD也不甘示弱,硬是殺出一條生路,得到大量客戶的青睞。聯想北美總裁Ryan McCurdy在接受采訪時表示,AMD MI300系列加速卡的需求是迄今為止最高的,聯想

2024-03-08

GPU 已經從僅僅比 CPU 更快地運行遊戲的設備發展成為通用加速器,為全球的工作站、服務器和超級計算機提供動力。全球數百萬人每天都在使用它——不僅在我們的計算機、電話、電視和流媒體設備中,而且在我們使用包含語音

2024-02-22

達最強競爭對手AMD(AMD.US)最近開始銷售MI300系列的AI GPU加速器,AMD預計今年將從該系列產品中獲得35億美元營收,高於此前預測的20億美元。AI芯片初創企業後續也將是英偉達有力挑戰者,近日Groq推出自研LPU,文本生成速度甚至

2024-03-29

NVIDIAAIGPU加速卡雖然無論性能還是市場都遙遙領先,AMD也不甘示弱,硬是殺出一條生路,得到大量客戶的青睞。聯想北美總裁RyanMcCurdy在接受采訪時表示,AMDMI300系列加速卡的需求是迄今為止最高的,聯想正在進行測試和負載驗證

2023-03-02

的方式銷售,每套八塊計算卡,算力高達5PFlops(每秒5千萬億次浮點計算),相當於前幾年的一套大型超級計算機,是大規模數據分析、AI加速計算的幾乎不二之選。DGX A100服務器單套售價約20萬美元,3萬塊卡下來就是大約7.5億美元

2023-11-03

如今無論是NVIDIA還是AMD,都不約而同地降低遊戲顯卡的優先級,將更多精力投入AI加速計算卡。無它,皆為利往。AMD在發佈第三季度財報後就明確表示,InstinctMI300X加速卡有望成為AMD歷史上以最快速度達到1億美元銷售額的產品。N

2024-03-07

從而超過192GB HBM3內存的AMD Instinct MI300X。H200還支持四路、八路互連,因此單系統的HBM3E內存容量可以達到864GB、1728GB!按照慣例,NVIDIA可能會出於良品率的考慮,屏蔽一小部分容量,但是單卡超過200GB、單系統超過1.6TB必然是很輕

2023-12-07

芯片公司AMD推出新的所謂加速器芯片,將目標瞄準這個由英偉達控制的新興市場領域。據該公司稱,其產品能夠比競爭對手的產品更快地運行人工智能軟件。該公司周三在加利福尼亞州聖何塞舉行的活動上推出備受期待的MI300產