NVIDIA 4nm GPU性能首秀:最大4.5倍提升


北京時間9月9日,MLCommons社區發佈最新的MLPerf2.1基準測試結果,新一輪基準測試擁有近5300個性能結果和2400個功耗測量結果,分別比上一輪提升1.37倍和1.09倍,MLPerf的適用范圍進一步擴大。阿裡巴巴、華碩、Azure、壁仞科技、戴爾、富士通、技嘉、H3C、HPE、浪潮、Intel、Krai、聯想、Moffett、Nettrix、NeuralMagic、NVIDIA

其中,NVIDIA表現依然亮眼,首次攜H100參加MLPerf測試,並在所有工作負載中刷新世界紀錄。

H100打破世界記錄,較A100性能提升4.5倍

NVIDIA於今年3月份發佈基於新架構NVIDIA Hopper的H100 GPU,與兩年前推出的NVIDIA Ampere架構相比,實現數量級的性能飛躍。

黃仁勛曾在 GTC 2022 上表示,20個H100 GPU便可以承托相當於全球互聯網的流量,能夠幫助客戶推出先進的推薦系統及實時運行數據推理的大型語言模型。

令一眾AI從業者期待的H100原本定於2022年第三季度正式發貨,目前處於接受預定狀態,用戶的真實使用情況和H100的實際性能尚不可知,因此可以通過最新一輪的MLPerf測試得分提前感受H100的性能。

在本輪測試中,對比Intel Sapphire Rapids、Qualcomm Cloud AI 100、Biren BR104、SAPEON X220-enterprise,NVIDIA H100不僅提交數據中心所有六個神經網絡模型的測試成績,且在單個服務器和離線場景中均展現出吞吐量和速度方面的領先優勢。

以NVIDIA  A100相比,H100在MLPerf模型規模最大且對性能要求最高的模型之一——用於自然語言處理的BERT模型中表現出4.5倍的性能提升,在其他五個模型中也都有1至3倍的性能提升。

H100之所以能夠在BERT模型上表現初出色,主要歸功於其Transformer Engine。

其他同樣提交成績的產品中,隻有Biren BR104在離線場景中的ResNet50和BERT-Large模型下,相比NVIDIA A100有一倍多的性能提升,其他提交成績的產品均未在性能上超越A100。

而在數據中心和邊緣計算類別的場景中,A100 GPU的測試成績依然不俗,得益於NVIDIA AI軟件的不斷改進,與2020年7月首次亮相MLPerf相比,A100 GPU實現6倍的性能提升。

追求AI通用性,測試成績覆蓋所有AI模型

由於用戶在實際應用中通常需要采用許多不同類型的神經網絡協同工作,例如一個AI應用可能需要理解用戶的語音請求、對圖像進行分類、提出建議,然後以語音回應,每個步驟都需要用到不同的AI模型。

正因如此,MLPerf基準測試涵蓋包括計算機視覺、自然語言處理、推薦系統、語音識別等流行的AI工作負載和場景,以便於確保用戶獲得可靠且部署靈活的性能。

這也意味著,提交的測試成績覆蓋的模型越多,成績越好,其AI能力更加具備通用性。

在此輪測試中,NVIDIAAI依然是唯一能夠在數據中心和邊緣計算中運行所有MLPerf推理工作負載和場景的平臺。

在數據中心方面,A100和H100都提交六個模型測試成績。

在邊緣計算方面,NVIDIA Orin運行所有MLPerf基準測試,且是所有低功耗系統級芯片中贏得測試最多的芯片。

Orin是將NVIDIA Ampere架構GPU和Arm CPU內核集成到一塊芯片中,主要用於機器人、自主機器、醫療機械和其他形式的邊緣嵌入式計算。

目前,Orin已經被用在NVIDIA Jetson AGX Orin開發者套件以及機器人和自主系統生成模考,並支持完整的NVIDIA AI軟件堆棧,包括自動駕駛汽車平臺、醫療設備平臺和機器人平臺。

與4月在MLPerf上的首次亮相相比,Orin能效提高50%,其運行速度和平均能效分別比上一代Jetson AGX Xavier 模塊高出5倍和2倍。

追求通用型的NVIDIA AI 正在被業界廣泛的機器學習生態系統支持。在這一輪基準測試中,有超過70 項提交結果在 NVIDIA 平臺上運行。例如,Microsoft Azure 提交在其雲服務上運行NVIDIA AI 的結果。


相關推薦

2023-04-07

AI世界如今最大的贏傢是誰?毫無疑問是黃仁勛的NVIDIA,佈局早,技術強,根本找不到對手,“躺著”就可以掙大錢。現在,NVIDIA又公佈最新一代HopperH100計算卡在MLPerfAI測試中創造的新紀錄。Hopper H100早在2022年3月就發佈,GH100 GPU

2022-09-09

今年3月份的GTC大會上,NVIDIA正式發佈新一代加速顯卡H100,臺積電4nm工藝,集成800億晶體管,最高1.8萬個CUDA核心,功耗高達700W,80GBHBM3顯存。H100計算卡有SXM、PCIe5.0兩種樣式,PCIe版價格都要24萬元以上,SXM版會更貴一些,實際價

2024-05-02

調必須是CPU、GPU、NPU三位一體,尤其是大力推行新的NPU,NVIDIA作為顯卡廠商就不幹,認為隻有配備強大的RTXGPU顯卡才是真正的AIPC。NVIDIA RTX GPU誕生於2018年,這些年來陸續進入各個行業領域,提供廣泛的應用加速,包括但不限於

2024-03-20

B100控制在700W,和上代H100完全一致,B200則首次達到1000W。NVIDIA宣稱,Blackwell GPU能夠在10萬億參數的大模型上實現AI訓練和實時大語言模型推理。GB200 Grace Blackwell是繼Grace Hopper之後的新一代超級芯片(Superchip),從單顆GPU+單顆CPU升

2023-03-23

GTC 2023春季大會上,NVIDIA宣佈與Quantum Machines合作打造全球首個GPU加速的量子計算系統NVIDIA DGX Quantum。該系統結合NVIDIA Grace Hopper CPU GPU超級芯片、CUDA Quantum開源編程模型組成的全球最強加速計算平臺,以及Quantum Machines的全球最先

2023-01-16

—Grace Hopper Superchip還是單芯片的方式,下圖是渲染圖。Nvidia對其Grace Superchip的渲染圖:兩個帶有RAM的處理器合二為一NVIDIA?Grace Hopper架構將NVIDIA Hopper GPU與NVIDIA Grace? CPU結合在一起,在單個超級芯片中連接高帶寬和內存一致的NVIDIA

2022-10-17

的4nm工藝,3nm Zen5雖然在路上,但2023年上市是不可能的。NVIDIA這邊使用的是定制版的臺積電4N工藝,RTX 40系列剛開始佈局,2023一整年內都不可能再出3nm GPU,服務器CPU也是5nm工藝的。手機廠商中,聯發科雖然首發臺積電4nm工藝,

2022-07-20

兩年前的上一代產品(驍龍wear4100)相比,功耗降低50%,性能提高兩倍,尺寸縮小30%,功能特性也多出兩倍。以續航為例,高通稱,同樣是300mAh電池的手表,換裝W5+後,可以多用15小時。同時,工藝從12nm提升到4nm也可謂是飛躍。

2022-09-21

9月20日深夜,萬眾期待的NVIDIARTX40系列顯卡終於來!首發宣佈的有三款,分別是RTX4090、RTX408016GB、RTX408012GB。RTX40系列基於全新設計的AdaLovelaceGPU架構,在性能、效率上都實現巨大的代際飛躍,無論是實時光線追蹤,還是AI神經網

2024-02-04

NVIDIA近日正式發佈新一代入門級顯卡RTX30506GB,也就是RTX30508GB全面精簡的產物(感覺更應該叫做RTX3040),目前已有多傢新品悄然上架,價格最低為1399元。比如七彩虹靈動版、盈通極速版(單風扇)/大地之神版、索泰萬圖師版都是這個

2023-01-04

今晚的CES活動上,NVIDIA也發佈多款重磅產品,除桌面版的RTX4070Ti顯卡之外,新一代RTX40移動版GPU也發佈來,首次將RTX4090級別的顯卡帶入到移動平臺,號稱筆記本性能及能效史上最大一次飛躍。GeForce RTX 40系列GPU采用NVIDIA的 Ada Lovel

2024-02-22

而使得其對於大模型的推理速度提高10倍以上,甚至超越NVIDIA的GPU。推理速度比GPU快10倍,功耗僅1/10據介紹,Groq的大模型推理芯片是全球首個LPU(Language Processing Unit)方案,是一款基於全新的TSA 架構的Tensor Streaming Processor (TSP)

2024-03-19

持續至21號。先給不解GTC的玩傢介紹一下,GTC是關於AI的NVIDIA開發者大會,會議中你可以解如何利用AI、加速計算以及數據科學去塑造甚至是改變世界。今年的GTC峰會主題完全圍繞AI展開,2個小時的時間,老黃又一次帶來AI的變革

2022-08-22

在自研CPU上,NVIDIA去年就公佈GraceCPU服務器處理器,這是一款高達144核的ARM處理器,日前在hotchips會議上NVIDIA又公佈Grace的架構細節及跑分,SPECrate2017_int_base最高可達740分,不僅超過AMD及Intel的x86旗艦,也超過前不久拿下第一的阿