基準測試表明英特爾Gaudi2加速器較英偉達A100更具特定優勢


在2019年以20億美元收購以色列HabanaLabs後,英特爾推出Gaudi2數據中心加速卡,並將之與面世已有兩年的英偉達A100進行對比。事實上,Habana制造兩種專用加速器——除面向神經網絡訓練的Gaudi2,還有主打推理任務的Goya/Greco。

雖然早在 5 月就發佈,但 MLPerf 公共數據庫直到上周才接收到它的基準測試成績。

由其分享的圖表可知,Gaudi2 系統的分數,被拿來和英偉達 / 戴爾的 A100 系統進行橫向比較。

首先,ResNet-50 能夠測試硬件在 AI 圖像分類工作上的表現。可知 Habana 的 Gaudi2 系統隻需 18 分鐘就通過測試,而英偉達 A100 系統需要將近半個小時。

其次,Gaudi2 隻用 17 分鐘來訓練 BERT 模型,較 A100 系統快大約一分鐘。作為一個自然語言處理(NLP)模型,這項測試使用來自維基百科的文章來訓練。

雖然所有測試平臺都使用八卡加速器 / GPU,但 Habana 系統搭配雙路 40 核的 Intel Xeon 8380 CPU,而英偉達系統則采用雙路 64 核的 AMD EPYC 7742 CPU 。

規格方面,Gaudi2 具有 24 個張量處理(TPC)內核 + 並行運行的兩部分矩陣乘法(MME)引擎。其支持包括 FP32、TF32、BF16、FP16 和 FP8 在內的廣泛數據類型。

此外 Gaudi2 有一個專用於處理音視頻輸入的媒體引擎,集成 48MB 內部緩存 + 板載 96GB(6×16GB)HBM2e 高帶寬內存,總帶寬達到 2.45 TB/s 。

連接方面,該加速器使用 PCIe 4.0 x16 接口、輔以 24 個 100 Mbps RoCE2(RDMA over Converged Ethernet 2)端口。

需要指出的是,英偉達 A100 / H100 的功能要更加全面一些,Gaudi2 在某些特定任務上更具優勢。

不過就算英偉達早在三個月前就發佈 H100 新品,Gaudi2 還是有望成為 A100 的一個有力競爭對手。


相關推薦

2022-07-04

測、圖像分類等方面的內容。除瞭英偉達之外,沒有其他加速器運行過所有基礎測試。而英偉達自2018年12月首次向MLPerf提交測試結果以來就一直完成所有基礎測試。共有十六傢合作夥伴使用瞭英偉達平臺提交瞭本輪測試結果,包

2022-09-28

旨在與英偉達A10展開直接的競爭。由該公司分享的第一方基準測試成績可知,Flex系列GPU能夠在特定工作負載下——比如8-bit解碼和HEVC轉碼應用程序中——實現五倍於NVIDIAA10的性能表現。(via WCCFTech)首先,Intel Flex 170 的功耗為 1

2022-06-28

i2硬件。作為該公司旗下HabanaLabs用於訓練和推力的第二代加速器,它也同步迎來瞭開源Linux內核驅動/用戶空間軟件堆棧更新。英特爾宣稱Gaudi2的AI訓練性能是英偉達A100競品方案的兩倍,且芯片制造工藝也從初代16nm升級到瞭7nm。

2023-11-10

蘋果M3CPU的最新基準測試結果出爐,其中M3Pro在PassMark單線程基準測試中沖上榜首。英特爾酷睿i9-14900KCPU在上個月首次亮相時成為PassMark基準測試中速度最快的單線程芯片,但沒過多久,蘋果的M3CPU系列就取代它成為新的速度最快

2022-09-01

此前,該公司已向我們展示 Arc A750 臺式顯卡的 50 款遊戲基準測試。可知與 GeForce RTX 3060 相比,Arc A750 平均速度優勢在 5% 左右。英特爾重申 Arc 獨顯具有強勁的 DX12 和 Vulkan 性能,但針對 DX11 和更早遊戲的支持短板也相當明顯。

2023-11-03

的英偉達A800/H800已經斷供,其他大廠諸如AMD的MI250芯片,英特爾的Gaudi2數據中心也被禁止出售給中國客戶。此次出口管制對芯片的性能密度、出口的國傢范圍、芯片制造的設備許可都做出具體的要求,甚至還把13傢中國GPU企業列

2022-09-15

當地時間周三,芯片公司英特爾、ARM和英偉達共同發佈一項所謂人工智能通用交換格式的規范草案,目的是使機器處理人工智能的過程速度更快、更高效。英特爾、ARM和英偉達在草案中推薦人工智能系統使用8位的FP8浮點處理格

2022-08-23

硬件接口。oneAPI 主要特性如下:● 提供面向其它工具和加速器設備的接口;● 支持精細的增益控制、以及低延遲的加速器特性;● 具有多線程設計;● 將 GPU 作為驅動程序的一部分而提供。性能指標方面,2-Stack Ponte Vecchio GPU

2022-08-12

峰會分析師大會上擔任演講嘉賓的JonPeddie,最近撰文分析英特爾的GPU業務。他認為英特爾已在其離散型GPU開發上投資約35億美元——這些投資尚未得到回報。自2021年第一季度正式成立以來,英特爾的AXG(加速計算和圖形部門)虧

2022-10-19

CapFrameX剛剛分享4K/8K分辨率下的AV1性能基準測試成績,並且拿英特爾ArcA770和NVDIA/AMDGPU展開一番對比。三款競品分別為綠廠的GeForceRTX4090/3080,以及紅隊的RadeonRX6800XT。測試環境為原生支持8K60fps@AV1編解碼的YouTube流媒體服務+Chrome瀏

2022-09-29

與AMDEPYC競品之間的核心數差距,藍廠還展示SapphireRapids的加速器封裝。這些固定功能的硬件組件,可為特定類型的服務器工作負載提供遠快於CPU內核的加速運行體驗。據悉,AMD 即將推出的 Zen 4 霄龍(EPYC)服務器處理器、提供多

2023-11-15

其與英偉達的有效競爭。英特爾:雖然英特爾在人工智能加速器或GPU方面尚未取得太多成功,但它的實力不容小覷。作為半導體行業的主要企業,英特爾擁有在這一領域取得重大進展的資源和能力。超大規模企業的內部解決方案

2022-07-14

並且分別對比 i9-13900K(QS)與 i9-12900K 這兩大兼容平臺的基準測試成績。結果表明,i9-13900K 單核平均較 i9-12900K 提升 10% / 多線程平均提升 35%、且 PugetBench 基準測試成績更是達到 2.3 倍。具體說來,i9-13900K 在 Cinebench R23 單核 / 多

2024-02-10

對此,Meta的發言人表示:“我們認為,我們自主開發的加速器將與市面上的GPU相得益彰,為Meta的任務提供最佳的性能與效率平衡。”除更高效地運行的推薦模型外,Meta還需要為自傢的生成式AI應用,以及正在訓練的GPT-4開源競