NVIDIA 4nm GPU性能首秀：最大4.5倍提升

2022-09-09 來自快科技發表於業界精選

北京時間9月9日，MLCommons社區發佈最新的MLPerf2.1基準測試結果，新一輪基準測試擁有近5300個性能結果和2400個功耗測量結果，分別比上一輪提升1.37倍和1.09倍，MLPerf的適用范圍進一步擴大。阿裡巴巴、華碩、Azure、壁仞科技、戴爾、富士通、技嘉、H3C、HPE、浪潮、Intel、Krai、聯想、Moffett、Nettrix、NeuralMagic、NVIDIA

其中，NVIDIA表現依然亮眼，首次攜H100參加MLPerf測試，並在所有工作負載中刷新世界紀錄。

H100打破世界記錄，較A100性能提升4.5倍

NVIDIA於今年3月份發佈基於新架構NVIDIA Hopper的H100 GPU，與兩年前推出的NVIDIA Ampere架構相比，實現數量級的性能飛躍。

黃仁勛曾在 GTC 2022 上表示，20個H100 GPU便可以承托相當於全球互聯網的流量，能夠幫助客戶推出先進的推薦系統及實時運行數據推理的大型語言模型。

令一眾AI從業者期待的H100原本定於2022年第三季度正式發貨，目前處於接受預定狀態，用戶的真實使用情況和H100的實際性能尚不可知，因此可以通過最新一輪的MLPerf測試得分提前感受H100的性能。

在本輪測試中，對比Intel Sapphire Rapids、Qualcomm Cloud AI 100、Biren BR104、SAPEON X220-enterprise，NVIDIA H100不僅提交數據中心所有六個神經網絡模型的測試成績，且在單個服務器和離線場景中均展現出吞吐量和速度方面的領先優勢。

以NVIDIA A100相比，H100在MLPerf模型規模最大且對性能要求最高的模型之一——用於自然語言處理的BERT模型中表現出4.5倍的性能提升，在其他五個模型中也都有1至3倍的性能提升。

H100之所以能夠在BERT模型上表現初出色，主要歸功於其Transformer Engine。

其他同樣提交成績的產品中，隻有Biren BR104在離線場景中的ResNet50和BERT-Large模型下，相比NVIDIA A100有一倍多的性能提升，其他提交成績的產品均未在性能上超越A100。

而在數據中心和邊緣計算類別的場景中，A100 GPU的測試成績依然不俗，得益於NVIDIA AI軟件的不斷改進，與2020年7月首次亮相MLPerf相比，A100 GPU實現6倍的性能提升。

追求AI通用性，測試成績覆蓋所有AI模型

由於用戶在實際應用中通常需要采用許多不同類型的神經網絡協同工作，例如一個AI應用可能需要理解用戶的語音請求、對圖像進行分類、提出建議，然後以語音回應，每個步驟都需要用到不同的AI模型。

正因如此，MLPerf基準測試涵蓋包括計算機視覺、自然語言處理、推薦系統、語音識別等流行的AI工作負載和場景，以便於確保用戶獲得可靠且部署靈活的性能。

這也意味著，提交的測試成績覆蓋的模型越多，成績越好，其AI能力更加具備通用性。

在此輪測試中，NVIDIAAI依然是唯一能夠在數據中心和邊緣計算中運行所有MLPerf推理工作負載和場景的平臺。

在數據中心方面，A100和H100都提交六個模型測試成績。

在邊緣計算方面，NVIDIA Orin運行所有MLPerf基準測試，且是所有低功耗系統級芯片中贏得測試最多的芯片。

Orin是將NVIDIA Ampere架構GPU和Arm CPU內核集成到一塊芯片中，主要用於機器人、自主機器、醫療機械和其他形式的邊緣嵌入式計算。

目前，Orin已經被用在NVIDIA Jetson AGX Orin開發者套件以及機器人和自主系統生成模考，並支持完整的NVIDIA AI軟件堆棧，包括自動駕駛汽車平臺、醫療設備平臺和機器人平臺。

與4月在MLPerf上的首次亮相相比，Orin能效提高50%，其運行速度和平均能效分別比上一代Jetson AGX Xavier 模塊高出5倍和2倍。

追求通用型的NVIDIA AI 正在被業界廣泛的機器學習生態系統支持。在這一輪基準測試中，有超過70 項提交結果在 NVIDIA 平臺上運行。例如，Microsoft Azure 提交在其雲服務上運行NVIDIA AI 的結果。

NVIDIA 4nm GPU性能首秀：最大4.5倍提升

相關推薦

NVIDIA H100計算卡強勢壟斷AI：性能暴漲4.5倍對手不存在的

NVIDIA H100加速卡實測數據公佈：相比上代性能提升1.5倍到4.5倍

NVIDIA稱RTX GPU執行AI任務的速度是NPU的數倍更適合打造AI PC

黃仁勛拋出2700W功耗的真核彈還有240TB顯存的AI超級計算機

NVIDIA全球首發GPU量子計算！10倍性能提升

對手紛紛擁抱大小核 NVIDIA這次落後？

Intel、AMD、NVIDIA退出臺積電3nm產能明年將被蘋果獨占

高通發佈4nm驍龍W5/W5+芯片：超低功耗性能提升兩倍

RTX 4090、RTX 4080正式發佈：性能暴漲4倍價格沖上12999元

NVIDIA RTX 3050 6GB首測：性能縮水超20％大約是GTX 1650的2.5倍

NVIDIA發佈RTX 40移動版顯卡筆記本性能、能效史上最大飛躍

AI推理速度提升超10倍 Groq LPU能否取代英偉達GPU？

GTC 2024硬件一覽：史上最強AI芯片GB200發佈高達2080億晶體管

NVIDIA自研4nm CPU跑分超越阿裡128核CPU登頂第一