英特爾詳細介紹Ponte Vecchio 性能可達英偉達A100平臺的2.5倍

2022-08-23 發表於業界精選

在HotChips34大會期間，英特爾再次詳細介紹SapphireRapidsHBM處理器+PonteVecchio（2-Stack）GPU平臺的潛力，稱該服務器平臺的性能可達英偉達A100競品的2.5倍。英特爾首席GPU計算架構師HongJiang在演講中指出，PonteVecchio具有三種配置。

（via WCCFTech）

從單一 OAM、到配備 Xe Links 的 x4 子系統，Ponte Vecchio GPU 不僅能夠單獨運行、也可部署於 Sapphire Rapids 雙路服務器平臺之上。

其中 OAM 支持 4 GPU 和 8 GPU 平臺的 all-to-all 拓撲，輔以英特爾 oneAPI 軟件堆棧。

作為一個零級（Level Zero）API，其為跨架構編程支持提供低層級的硬件接口。

oneAPI 主要特性如下：

● 提供面向其它工具和加速器設備的接口；
● 支持精細的增益控制、以及低延遲的加速器特性；
● 具有多線程設計；
● 將 GPU 作為驅動程序的一部分而提供。

性能指標方面，2-Stack Ponte Vecchio GPU 配置（如單一 OAM 上的配置），可提供高達 52 TFLOP 的 FP64 / FP32 算力。

另有 419 TFLOP 的 TF32（XMX Float 32）、839 TFLOP 的 BF16 / FP16，以及 1678 TFLOPs 的 INT8 算力。

英特爾還詳細說明 Ponte Vecchio 的緩存大小 / 峰值帶寬 —— 比如 GPU 上的寄存器為 64 MB，提供 419 TB/s 的帶寬。

L1 緩存也為 64 MB，帶寬 105 TB/s（4:1）。L2 緩存為 408 MB，帶寬 13 TB/s（8:1）。HBM 內存池高達 128 GB，輔以 4.2 TB/s（4:1）的帶寬。

以下是英特爾為 Ponte Vecchio 配備的系列計算效率（compute efficiency）技術。

Register File（寄存器文件）：

● Register Caching（寄存器緩存）
● Accumulators（累加器）

L1 / L2 Cache：

● Write Through（直寫）
● Write Back（回寫）
● Write Streaming（流式寫入）
● Uncached（不緩存）

Prefetch（預取）：

● 支持 L1 和（或）L2 緩存的軟件（指令）預取；
● 支持到 L2 獲取指令和數據的 Command Streamer 預取。

英特爾解釋稱，更大的 L2 緩存，可為 2D-FFT 和 DNN 等工作負載帶來巨大的效益，並且分享完整 Ponte Vecchio GPU 和 80 / 32 MB 模塊之間的一些性能比較。

此外英特爾搬出運行 CUDA 和 SYCL 的英偉達 Ampere A100，與使用 SYCL 的 Ponte Vecchio GPU 平臺展開性能橫比。

在 miniBUDE（一種可預測配體與目標結合能的計算工作負載）中，Ponte Vecchio GPU 模擬測試結果的速度，更是 Ampere A100 的 2 倍。

另外在 ExaSMR 核反應堆設計仿真設計中，英特爾 Ponte Vecchio GPU 也以 1.5 倍領先於英偉達競品方案。

不過需要指出的是，英偉達早已向市場投放性能更加強悍的 Hopper H100，所以英特爾這裡拿 Ampere A100 進行比較還是相當投機取巧的。

言歸正傳，英特爾概述 Ponte Vecchio 旗艦數據中心 GPU 的一些關鍵特性，例如 128 個 Xe 內核、128 個光追（RT）單元、HBM2e 顯存、以及連接到一起的 8 個 Xe-HPC GPU 。

該芯片在兩個獨立的堆棧中提供高達 408 MB 的 L2 緩存、之間通過 EMIB 互連，且各部分芯片混用 Intel 7 和臺積電 N7 / N5 等多個工藝節點。

由兩塊（2 Tiles）組成的每個堆棧有 16 裸片，最大的 active die 尺寸為 41 m㎡、Compute Tile 則是 650 m㎡。

以下是 Ponte Vecchio GPU 的完整小芯片 / 工藝節點描述：

● 英特爾 7nm
● 臺積電 7nm
● Foveros 3D 封裝
● EMIB 互連
● 10nm 增強型 Super Fin
● Rambo Cache
● HBM2 高帶寬顯存

以下是英特爾 Ponte Vecchio 芯片的 47 塊（Tiles）組成：

● 16 個 Xe HPC（內/外部）
● 8 個 Rambo Cache（內部）
● 2 個 Xe Base（內部）
● 11 個 EMIB（內部）
● 2 個 Xe Link（外部）
● 8 個 HBM（外部）

Ponte Vecchio GPU 使用 8 個 HBM 8-Hi 堆棧，總共包含 11 個 EMIB 互連，完整封裝尺寸為 4843.75 m㎡。

設計中還提到高密度 3D Forveos 封裝的 Meteor Lake CPU，可知其 bump pitch 的間距為 36u 。

【總結】Ponte Vecchio GPU 不是一個單獨的芯片，而是由 47 個不同工藝制程的小芯片“組合”得來。

遺憾的是，受英特爾多次跳票的影響，使用 Ponte Vecchio GPU 和 Sapphire Rapids CPU 的 Aurora 超級計算機項目也被迫推遲。

即便如此，英特爾還是透露下一代 Rialto Bridge GPU 。可知作為 Ponte Vecchio GPU 的繼任者，其有望於 2023 年開始提供樣品。

英特爾詳細介紹Ponte Vecchio 性能可達英偉達A100平臺的2.5倍

相關推薦

Intel GPU號稱領先NVIDIA 2.5倍？細看尷尬

英特爾詳細介紹FFmpeg中的oneVPL CPU和GPU加速特性

谷歌公佈新一代AI超算稱比英偉達A100更快、更節能

對手紛紛擁抱大小核 NVIDIA這次落後？

老黃深夜炸場：世界最強AI芯片H200震撼發佈性能飆升90%

英特爾推出數據中心GPU：Ponte Vecchio 將裝備在Argonne實驗室上

分析師：英特爾離散GPU業務虧損嚴重整個AXG部門可能被砍掉

Hot Chips 34：擺脫x86束縛英偉達詳解Grace服務器CPU設計

MLPerf最新結果公佈 NVIDIA仍是“王者”

英特爾押註OneAPI 欲為Arc遊戲和專業GPU提供多卡交火支持

加錢掃貨、走私、裝甲車運輸，揭秘AI芯片背後的黑市風暴

AI 大模型競爭白熱化，算力優化才是“超車點”？

隻用一周時間，摩爾定律就死一次又活回來

理想自研芯片進展：在新加坡設立辦公室，團隊規模已超160人