現場直擊GTC：性能翻30倍的Blackwell芯片黃仁勛宣告“新工業革命”來

2024-03-19 來自矽星人Pro 發表於業界精選

2024年3月18日的GTC上，黃仁勛正式成新的喬佈斯。當天下午黃仁勛走上臺開始演講，而這次與以往都不同。這場發佈會在SAP中心進行，人們在百米長的隊伍裡要經過兩個小時地檢票和等待，裡外裡轉好幾道彎，才進到演講會場。

這裡是矽谷很多演唱會和演出的舉辦地，占地4.2萬平方米，曾舉辦過滾石和Bon Jovi 演唱會、美國NHL全明星賽，而現在站在舞臺中央的是黃仁勛，他讓現場的許多開發者想到喬佈斯。

在一段預熱片後，黃仁勛上臺。背景停留在“我是AI”的界面。

“希望大傢意識到這不是一場演唱會。你來到的是個開發者大會。”黃仁勛說。這是一場隻有模擬而沒有動畫的發佈會。他說。這也讓後來整場發佈會越來越像科幻片。可能是人類歷史上最科幻的一場發佈會。

“今天抵達GTC現場的公司們價值1 trillion。這麼多夥伴，需要這麼多的算力，怎麼辦？我們需要大得多的GPU。把所有GPU 連接起來，成千上萬個大的GPU裡是成千上萬小的GPU，百萬個GPU讓你的效率提升！”

然後他簡單回顧一下AI的發展歷史，“20年前我們就看到它會到來”。

“然後CUDA和AI做第一次親密接觸。”他說。“06年推出CUDA的時候，我們以為這是革命性的，會一夜成功，結果一等就等二十年！”

“今天的一切都是homemade。”在一個個通過AI模擬出來的酷炫的視頻後，一切鋪墊就緒——英偉達就是這一切進步的基石。是時候該發佈重要芯片。

人們對此有預期，但當B200出現的時候，現場（可能包括全世界圍觀者）都還是忍不住驚呼。

這是Hooper後的新一代架構，以數學傢Blackwell命名。在性能上，它就是黃仁勛“黃氏定律”的集大成者和奠基者。

以下是我用AI總結的Blackwell GPU的性能特點：

高AI性能：B200 GPU提供高達20 petaflops的FP4計算能力，這是由其2080億個晶體管提供的。
高效推理：當與Grace CPU結合形成GB200超級芯片時，它能在LLM推理工作負載上提供比單個GPU高出30倍的性能，同時在成本和能源消耗上比H100 GPU高出25倍。
訓練能力：使用Blackwell GPU，訓練一個1.8萬億參數的模型所需的GPU數量從8000個減少到2000個，同時電力消耗從15兆瓦降低到僅四兆瓦。

GPT-3性能：在GPT-3 LLM基準測試中，GB200的性能是H100的七倍，訓練速度提高4倍。
改進的Transformer引擎：第二代Transformer引擎通過使用每個神經元的四位而不是八位，實現計算、帶寬和模型大小的翻倍。
下一代NVLink開關：允許多達576個GPU之間進行通信，提供每秒1.8太比特的雙向帶寬。
新的網絡交換芯片：擁有500億晶體管和3.6 teraflops的FP8計算能力，用於支持大規模GPU集群的通信。
擴展性：NVIDIA的系統可以擴展到數萬個GB200超級芯片，通過800Gbps的Quantum-X800 InfiniBand或Spectrum-X800以太網連接。

大規模部署：GB200 NVL72設計可以將36個CPU和72個GPU集成到一個液冷機架中，提供總共720 petaflops的AI訓練性能或1.4 exaflops的推理性能。
支持大型模型：單個NVL72機架可以支持高達27萬億參數的模型，而且有意思的是，黃仁勛似乎透露一下GPT-4的參數，它可能是一個約1.7萬億參數的模型。

（更多關於B200的解讀我們會在今天稍晚帶來，歡迎關註矽星人GTC後續報道）

黃仁勛回顧自己送給OpenAI的第一個DGX，它隻有0.17Peataflops，而今天的DGX Grace-Blackwell GB200已經超過1 Exaflop的算力。

老黃站在這張圖前講半天，這畫面讓你覺得摩爾定律可能真的死，黃氏定律正式登基。

在B200的發佈後，黃仁勛用一個AI生成的模擬短片介紹“配套”的一系列產品，從集群到數據中心的交換機等。基本都是性能怪獸。

GB200超級芯片就是將兩個B200 GPU與一個Grace CPU結合在一起，它能將成本和能源消耗比 H100降低多達25倍”。黃仁勛表示自己可得拿穩，“這塊很貴，可能100億？不過以後會便宜的。”現場爆笑。

與此同時，他也強調新一代芯片和相關產品在能耗上的改進。之前訓練一個1.8萬億參數的模型需要使用8000個Hopper GPU和15兆瓦的電力。如今，使用2000個Blackwell GPU就可以完成相同的任務，同時僅消耗4兆瓦的電力。

黃仁勛說，英偉達還正在將它們打包成更大的設計，比如GB200 NVL72，把36個CPU和72個GPU集成到一個單一的液冷機架中，提供總共720 petaflops 的AI訓練性能或1440petaflops的推理性能。它內部有近乎兩英裡的電纜，包括5000條獨立電纜。

此外他也特意強調推理性能的提升，畢竟英偉達最新的財報已經顯示，它的收入越來越多的來自客戶們在AI推理部分的支出。主要的雲廠商也都被點名表揚一下，他們和英偉達越來越不可分離。

軟件方面，黃仁勛介紹到，英偉達正在打包預訓練模型及其附屬延伸，並簡化稱為NVIDIA推理微服務（NIMS）的微服務部署。這不僅僅是之前的CUDA，而是讓模型更易於實施和管理的平臺。

“你現在就可以下載，帶走，安裝在你自己的數據中心”，他說道。

並且NVIDIA提供服務幫助企業和應用程序對模型進行微調或定制。

在羅列一系列在氣象和科學上的合作後，黃仁勛開始進入關於機器人技術的部分，這場發佈會開始變得更加科幻。

黃仁勛說，英偉達正在押註的下一代產品是能夠控制人形機器人。Jetson Thor 就是接替NVIDIA Jetson Orin，為機器人技術推出的更新產品。

“確實，世界是為人類設計的，所以我們希望使用英偉達Thor芯片和GR00T軟件來訓練和管理新一代的人形機器人。這樣的機器人將能更好地適應人類設計的環境和工作流程，從而在多樣的任務和場景中提供幫助。”

機器人展示視頻過後，舞臺燈光再次亮起時，黃仁勛與身後所有由公司提供動力的人形機器人站在一起，向觀眾致意。不知為什麼有種鋼鐵俠的意思~

還領上來兩個在NVIDIA Isaac SIM中學會走路的迪士尼小型機器人。黃仁勛說話時它們一直扭扭捏捏，讓老黃不得不低頭憐愛地低聲說：“Orange（小機器人的名字），我在努力專心！不要再拖延時間”——超級可愛，把現場氣氛推向高潮。

而在黃仁勛和這兩個小機器人一起“打開”的謝幕視頻裡，一架微型小飛船飛過英偉達歷代GPU產品、架構，在光纜中完成技術巡禮，最後飛機艙門不經意的打開，駕駛員正是黃仁勛的卡通虛擬數字人。

主題演講結束前，黃仁勛又總結一遍今天的發佈會，而近距離鏡頭可以看到，黃仁勛似乎有些帶著淚光。

“如果你問我，心目中的GPU是什麼樣子，今天的發佈就是我的答案。”

他說今天他展示什麼是英偉達的靈魂。“我們站在計算科學和物理等其他一切科學的交叉點”。這是他心裡英偉達的定位。

“新的工業革命來。”而他沒說的，是藏在今天一堆PPT裡某一張的那行小字——英偉達，新工業革命的引擎。

這是黃仁勛的時代。

現場直擊GTC：性能翻30倍的Blackwell芯片黃仁勛宣告“新工業革命”來

相關推薦

全程回顧黃仁勛GTC演講：Blackwell架構B200芯片登場

GTC大會“AI融萬物”之勢全面來襲“YOLO們”押註英偉達股價即將翻番

NVIDIA“最強AI芯片”Blackwell B200 GPU令業內驚呼新的摩爾定律誕生

GTC對話黃仁勛：老黃眼中的“GPU”和別人有很大差別

黃仁勛的野心不止於GPU “AI工廠”概念劍指2500億美元藍海

英偉達發佈用於AI的"世界上最強大芯片"Blackwell B200 GPU

英偉達CEO黃仁勛強調中國市場重要性力求業務最大化

黃仁勛最新對談：8年間GPU芯片性能提高1000倍未來機器人將更像人類

英偉達掌握AI時代“摩爾定律” 會加大中美AI公司差距麼？

黃仁勛英偉達GTC 2024大會皮衣並不便宜一件超過6萬

黃仁勛GTC演講全文：最強AI芯片Blackwell問世推理能力提升30倍

黃仁勛：NVIDIA隻用兩年就研制出比x86快1.3倍的CPU處理器

黃仁勛拋出2700W功耗的真核彈還有240TB顯存的AI超級計算機

英偉達新一代架構Blackwell來：RTX 50、B200都要用功耗將超1000W

現場直擊GTC：性能翻30倍的Blackwell芯片 黃仁勛宣告“新工業革命”來

相關推薦

現場直擊GTC：性能翻30倍的Blackwell芯片黃仁勛宣告“新工業革命”來