在HotChips34大會期間,英特爾再次詳細介紹SapphireRapidsHBM處理器+PonteVecchio(2-Stack)GPU平臺的潛力,稱該服務器平臺的性能可達英偉達A100競品的2.5倍。英特爾首席GPU計算架構師HongJiang在演講中指出,PonteVecchio具有三種配置。
(via WCCFTech)
從單一 OAM、到配備 Xe Links 的 x4 子系統,Ponte Vecchio GPU 不僅能夠單獨運行、也可部署於 Sapphire Rapids 雙路服務器平臺之上。
其中 OAM 支持 4 GPU 和 8 GPU 平臺的 all-to-all 拓撲,輔以英特爾 oneAPI 軟件堆棧。
作為一個零級(Level Zero)API,其為跨架構編程支持提供低層級的硬件接口。
oneAPI 主要特性如下:
● 提供面向其它工具和加速器設備的接口;
● 支持精細的增益控制、以及低延遲的加速器特性;
● 具有多線程設計;
● 將 GPU 作為驅動程序的一部分而提供。
性能指標方面,2-Stack Ponte Vecchio GPU 配置(如單一 OAM 上的配置),可提供高達 52 TFLOP 的 FP64 / FP32 算力。
另有 419 TFLOP 的 TF32(XMX Float 32)、839 TFLOP 的 BF16 / FP16,以及 1678 TFLOPs 的 INT8 算力。
英特爾還詳細說明 Ponte Vecchio 的緩存大小 / 峰值帶寬 —— 比如 GPU 上的寄存器為 64 MB,提供 419 TB/s 的帶寬。
L1 緩存也為 64 MB,帶寬 105 TB/s(4:1)。L2 緩存為 408 MB,帶寬 13 TB/s(8:1)。HBM 內存池高達 128 GB,輔以 4.2 TB/s(4:1)的帶寬。
以下是英特爾為 Ponte Vecchio 配備的系列計算效率(compute efficiency)技術。
Register File(寄存器文件):
● Register Caching(寄存器緩存)
● Accumulators(累加器)
L1 / L2 Cache:
● Write Through(直寫)
● Write Back(回寫)
● Write Streaming(流式寫入)
● Uncached(不緩存)
Prefetch(預取):
● 支持 L1 和(或)L2 緩存的軟件(指令)預取;
● 支持到 L2 獲取指令和數據的 Command Streamer 預取。
英特爾解釋稱,更大的 L2 緩存,可為 2D-FFT 和 DNN 等工作負載帶來巨大的效益,並且分享完整 Ponte Vecchio GPU 和 80 / 32 MB 模塊之間的一些性能比較。
此外英特爾搬出運行 CUDA 和 SYCL 的英偉達 Ampere A100,與使用 SYCL 的 Ponte Vecchio GPU 平臺展開性能橫比。
在 miniBUDE(一種可預測配體與目標結合能的計算工作負載)中,Ponte Vecchio GPU 模擬測試結果的速度,更是 Ampere A100 的 2 倍。
另外在 ExaSMR 核反應堆設計仿真設計中,英特爾 Ponte Vecchio GPU 也以 1.5 倍領先於英偉達競品方案。
不過需要指出的是,英偉達早已向市場投放性能更加強悍的 Hopper H100,所以英特爾這裡拿 Ampere A100 進行比較還是相當投機取巧的。
言歸正傳,英特爾概述 Ponte Vecchio 旗艦數據中心 GPU 的一些關鍵特性,例如 128 個 Xe 內核、128 個光追(RT)單元、HBM2e 顯存、以及連接到一起的 8 個 Xe-HPC GPU 。
該芯片在兩個獨立的堆棧中提供高達 408 MB 的 L2 緩存、之間通過 EMIB 互連,且各部分芯片混用 Intel 7 和臺積電 N7 / N5 等多個工藝節點。
由兩塊(2 Tiles)組成的每個堆棧有 16 裸片,最大的 active die 尺寸為 41 m㎡、Compute Tile 則是 650 m㎡ 。
以下是 Ponte Vecchio GPU 的完整小芯片 / 工藝節點描述:
● 英特爾 7nm
● 臺積電 7nm
● Foveros 3D 封裝
● EMIB 互連
● 10nm 增強型 Super Fin
● Rambo Cache
● HBM2 高帶寬顯存
以下是英特爾 Ponte Vecchio 芯片的 47 塊(Tiles)組成:
● 16 個 Xe HPC(內/外部)
● 8 個 Rambo Cache(內部)
● 2 個 Xe Base(內部)
● 11 個 EMIB(內部)
● 2 個 Xe Link(外部)
● 8 個 HBM(外部)
Ponte Vecchio GPU 使用 8 個 HBM 8-Hi 堆棧,總共包含 11 個 EMIB 互連,完整封裝尺寸為 4843.75 m㎡ 。
設計中還提到高密度 3D Forveos 封裝的 Meteor Lake CPU,可知其 bump pitch 的間距為 36u 。
【總結】Ponte Vecchio GPU 不是一個單獨的芯片,而是由 47 個不同工藝制程的小芯片“組合”得來。
遺憾的是,受英特爾多次跳票的影響,使用 Ponte Vecchio GPU 和 Sapphire Rapids CPU 的 Aurora 超級計算機項目也被迫推遲。
即便如此,英特爾還是透露下一代 Rialto Bridge GPU 。可知作為 Ponte Vecchio GPU 的繼任者,其有望於 2023 年開始提供樣品。