英特爾詳細介紹Ponte Vecchio 性能可達英偉達A100平臺的2.5倍


在HotChips34大會期間,英特爾再次詳細介紹SapphireRapidsHBM處理器+PonteVecchio(2-Stack)GPU平臺的潛力,稱該服務器平臺的性能可達英偉達A100競品的2.5倍。英特爾首席GPU計算架構師HongJiang在演講中指出,PonteVecchio具有三種配置。

(via WCCFTech)

從單一 OAM、到配備 Xe Links 的 x4 子系統,Ponte Vecchio GPU 不僅能夠單獨運行、也可部署於 Sapphire Rapids 雙路服務器平臺之上。

其中 OAM 支持 4 GPU 和 8 GPU 平臺的 all-to-all 拓撲,輔以英特爾 oneAPI 軟件堆棧。

作為一個零級(Level Zero)API,其為跨架構編程支持提供低層級的硬件接口。

oneAPI 主要特性如下:

● 提供面向其它工具和加速器設備的接口;

● 支持精細的增益控制、以及低延遲的加速器特性;

● 具有多線程設計;

● 將 GPU 作為驅動程序的一部分而提供。

性能指標方面,2-Stack Ponte Vecchio GPU 配置(如單一 OAM 上的配置),可提供高達 52 TFLOP 的 FP64 / FP32 算力。

另有 419 TFLOP 的 TF32(XMX Float 32)、839 TFLOP 的 BF16 / FP16,以及 1678 TFLOPs 的 INT8 算力。

英特爾還詳細說明 Ponte Vecchio 的緩存大小 / 峰值帶寬 —— 比如 GPU 上的寄存器為 64 MB,提供 419 TB/s 的帶寬。

L1 緩存也為 64 MB,帶寬 105 TB/s(4:1)。L2 緩存為 408 MB,帶寬 13 TB/s(8:1)。HBM 內存池高達 128 GB,輔以 4.2 TB/s(4:1)的帶寬。

以下是英特爾為 Ponte Vecchio 配備的系列計算效率(compute efficiency)技術。

Register File(寄存器文件):

● Register Caching(寄存器緩存)

● Accumulators(累加器)

L1 / L2 Cache:

● Write Through(直寫)

● Write Back(回寫)

● Write Streaming(流式寫入)

● Uncached(不緩存)

Prefetch(預取):

● 支持 L1 和(或)L2 緩存的軟件(指令)預取;

● 支持到 L2 獲取指令和數據的 Command Streamer 預取。

英特爾解釋稱,更大的 L2 緩存,可為 2D-FFT 和 DNN 等工作負載帶來巨大的效益,並且分享完整 Ponte Vecchio GPU 和 80 / 32 MB 模塊之間的一些性能比較。

此外英特爾搬出運行 CUDA 和 SYCL 的英偉達 Ampere A100,與使用 SYCL 的 Ponte Vecchio GPU 平臺展開性能橫比。

在 miniBUDE(一種可預測配體與目標結合能的計算工作負載)中,Ponte Vecchio GPU 模擬測試結果的速度,更是 Ampere A100 的 2 倍。

另外在 ExaSMR 核反應堆設計仿真設計中,英特爾 Ponte Vecchio GPU 也以 1.5 倍領先於英偉達競品方案。

不過需要指出的是,英偉達早已向市場投放性能更加強悍的 Hopper H100,所以英特爾這裡拿 Ampere A100 進行比較還是相當投機取巧的。

言歸正傳,英特爾概述 Ponte Vecchio 旗艦數據中心 GPU 的一些關鍵特性,例如 128 個 Xe 內核、128 個光追(RT)單元、HBM2e 顯存、以及連接到一起的 8 個 Xe-HPC GPU 。

該芯片在兩個獨立的堆棧中提供高達 408 MB 的 L2 緩存、之間通過 EMIB 互連,且各部分芯片混用 Intel 7 和臺積電 N7 / N5 等多個工藝節點。

由兩塊(2 Tiles)組成的每個堆棧有 16 裸片,最大的 active die 尺寸為 41 m㎡、Compute Tile 則是 650 m㎡ 。

以下是 Ponte Vecchio GPU 的完整小芯片 / 工藝節點描述:

● 英特爾 7nm

● 臺積電 7nm

● Foveros 3D 封裝

● EMIB 互連

● 10nm 增強型 Super Fin

● Rambo Cache

● HBM2 高帶寬顯存

以下是英特爾 Ponte Vecchio 芯片的 47 塊(Tiles)組成:

● 16 個 Xe HPC(內/外部)

● 8 個 Rambo Cache(內部)

● 2 個 Xe Base(內部)

● 11 個 EMIB(內部)

● 2 個 Xe Link(外部)

● 8 個 HBM(外部)

Ponte Vecchio GPU 使用 8 個 HBM 8-Hi 堆棧,總共包含 11 個 EMIB 互連,完整封裝尺寸為 4843.75 m㎡ 。

設計中還提到高密度 3D Forveos 封裝的 Meteor Lake CPU,可知其 bump pitch 的間距為 36u 。

【總結】Ponte Vecchio GPU 不是一個單獨的芯片,而是由 47 個不同工藝制程的小芯片“組合”得來。

遺憾的是,受英特爾多次跳票的影響,使用 Ponte Vecchio GPU 和 Sapphire Rapids CPU 的 Aurora 超級計算機項目也被迫推遲。

即便如此,英特爾還是透露下一代 Rialto Bridge GPU 。可知作為 Ponte Vecchio GPU 的繼任者,其有望於 2023 年開始提供樣品。


相關推薦

2022-08-23

HotChips34大會史昂,Intel又公佈PonteVecchioGPU高性能計算卡的更多細節,包括性能數據。PonteVecchioGPU基於全新的XeHPC高性能計算架構,使用5種不同制造工藝(Intel7和臺積電N7/N5等)、多種封裝技術,整合多達47個不同計算模塊,晶體管數

2022-09-15

英特爾介紹該公司包含在FFmpegoneAPI工具包中的視頻處理和加速庫的oneVPL支持。oneVPL視頻處理庫有助於在處理器和公司內部的GPU加速中調用最新的12代酷睿AlderLake和IntelXe硬件。加速的重點是英特爾ArcGraphics和DG2硬件,指導媒體SDK支

2023-04-05

TPU已經進入第四代。谷歌公司在周二發佈一篇科學論文,詳細介紹如何利用自己開發的定制光開關將4000多個芯片連接成一個超級計算機。對於構建AI超級計算機的公司來說,改善這些連接已經成為競爭的關鍵點,因為所謂的大規

2023-01-16

11日,英特爾發佈其首款Chiplet小芯片封裝的GPU,代號Ponte Vecchio,GPU Max系列單個產品整合47個小芯片,集成超過1000億個晶體管。這是英特爾性能最高、密度最高的通用獨立GPU。英特爾的這一芯片的具體性能對比情況暫未可知,但

2023-11-14

GH200超級芯片,提供21 Exaflops的AI計算能力。英偉達、AMD、英特爾:三巨頭決戰AI芯片GPU競賽,也進入白熱化。面對H200,而老對手AMD的計劃是,利用即將推出的大殺器——Instinct MI300X來提升顯存性能。MI300X將配備192GB的HBM3和5.2TB/s

2022-09-28

一個重大的裡程碑,宣佈推出自傢的數據中心顯卡--PonteVecchio(PVC),將會裝備在Argonne實驗室的刀片服務器上。來自英特爾的PVCGPU基於XeHPC架構,可進一步提高Argonne超級計算機的petaFLOP性能。作為英特爾的重磅產品,英特爾 Ponte Vecc

2022-08-12

GPU架構;多次推遲用於人工智能和高性能計算應用的Ponte Vecchio計算GPU的發貨(最近一次是由於Intel 4節點的延遲),並將Xe HPG ACM-G11遊戲GPU的發佈推遲約一年。Jon Peddie認為,考慮到英特爾的Arc Alchemist 500和700系列GPU很晚才上市,

2022-08-25

CPU設計。作為一種經典意義上的中央處理器,其旨在取代英特爾至強(Xeon)/AMD霄龍(EPYC)競品,以在預先構建的高性能計算(HPC)服務器中扮演串行處理的角色——因為每臺服務器的六張GPU加速卡需要通過CPU進行互連。(via WC

2022-07-04

Perf2.0的結果與去年12月發佈的v1.1結果大致相同,AI的總體性能比上一輪發佈提高瞭大約1.8倍。有21傢公司和機構在最新一輪的測試中提交瞭MLPerf基準測試的成績,提交的成績總數超過瞭260份。英偉達依然“打滿全場”本次測試中

2022-08-11

特爾也即將推出類似的小芯片設計 —— 即將突出的 Ponte Vecchio 和下一代 Rialto Bridge,都將充分利用 OneAPI 的多 GPU 支持。此外在內容創作領域,英偉達其實也有為旗艦硬件 —— 比如 RTX 3090 / RTX A6000 系列 —— 提供至少雙向的 NVLI

2024-03-14

那一定包括蘇姿豐和她掌管的AMD。”除AMD,老牌芯片巨頭英特爾也不想在AI時代掉隊。在過去一年,英特爾CEO帕特·基辛格多次表示:“生成式AI不隻可以在英偉達芯片上運行。”雖然英特爾最先進的AI加速芯片Gaudi 2在性能上不及

2023-07-16

運算加速器(英特爾 AMX),還有英特爾數據中心 GPU Ponte Vecchio(PVC)、Gaudi 系列專用 AI 加速器。二是在軟件層面,利用軟件的技術將硬件的計算能力提供出來,包括與 TensorFlow、PyTorch、Hybrid Bonding 等開源軟件進行廣泛合作,與 Open

2022-10-01

我們也要完成它。”這些GPU包括此前公佈的代號為 Ponte Vecchio 的英特爾數據中心GPU的刀片式服務器,基辛格表示它已出貨給阿貢國傢實驗室,服務極光超級計算機。而更受關註的是面向高性能遊戲市場的Arc系列的最高端獨立顯卡

2023-11-22

,博士畢業於美國特拉華大學電子與計算機工程系,曾在英特爾、ARM、蘋果和Google從事 CPU 和其他芯片的設計開發工作。理想汽車官網顯示,其正在通過社會招聘渠道招募 NPU 相關技術人才,列出的全職崗位包括 NPU 運行時軟件工