現場直擊GTC:性能翻30倍的Blackwell芯片 黃仁勛宣告“新工業革命”來


2024年3月18日的GTC上,黃仁勛正式成新的喬佈斯。當天下午黃仁勛走上臺開始演講,而這次與以往都不同。這場發佈會在SAP中心進行,人們在百米長的隊伍裡要經過兩個小時地檢票和等待,裡外裡轉好幾道彎,才進到演講會場。


這裡是矽谷很多演唱會和演出的舉辦地,占地4.2萬平方米,曾舉辦過滾石和Bon Jovi 演唱會、美國NHL全明星賽,而現在站在舞臺中央的是黃仁勛,他讓現場的許多開發者想到喬佈斯。


在一段預熱片後,黃仁勛上臺。背景停留在“我是AI”的界面。


“希望大傢意識到這不是一場演唱會。你來到的是個開發者大會。”黃仁勛說。這是一場隻有模擬而沒有動畫的發佈會。他說。這也讓後來整場發佈會越來越像科幻片。可能是人類歷史上最科幻的一場發佈會。

“今天抵達GTC現場的公司們價值1 trillion。這麼多夥伴,需要這麼多的算力,怎麼辦?我們需要大得多的GPU。把所有GPU 連接起來,成千上萬個大的GPU裡是成千上萬小的GPU, 百萬個GPU讓你的效率提升!”


然後他簡單回顧一下AI的發展歷史,“20年前我們就看到它會到來”。


“然後CUDA和AI做第一次親密接觸。”他說。“06年推出CUDA的時候,我們以為這是革命性的,會一夜成功,結果一等就等二十年!”


“今天的一切都是homemade。”在一個個通過AI模擬出來的酷炫的視頻後,一切鋪墊就緒——英偉達就是這一切進步的基石。是時候該發佈重要芯片。


人們對此有預期,但當B200出現的時候,現場(可能包括全世界圍觀者)都還是忍不住驚呼。

這是Hooper後的新一代架構,以數學傢Blackwell命名。在性能上,它就是黃仁勛“黃氏定律”的集大成者和奠基者。

以下是我用AI總結的Blackwell GPU的性能特點:

  1. 高AI性能:B200 GPU提供高達20 petaflops的FP4計算能力,這是由其2080億個晶體管提供的。

  2. 高效推理:當與Grace CPU結合形成GB200超級芯片時,它能在LLM推理工作負載上提供比單個GPU高出30倍的性能,同時在成本和能源消耗上比H100 GPU高出25倍。

  3. 訓練能力:使用Blackwell GPU,訓練一個1.8萬億參數的模型所需的GPU數量從8000個減少到2000個,同時電力消耗從15兆瓦降低到僅四兆瓦。


  1. GPT-3性能:在GPT-3 LLM基準測試中,GB200的性能是H100的七倍,訓練速度提高4倍。

  2. 改進的Transformer引擎:第二代Transformer引擎通過使用每個神經元的四位而不是八位,實現計算、帶寬和模型大小的翻倍。

  3. 下一代NVLink開關:允許多達576個GPU之間進行通信,提供每秒1.8太比特的雙向帶寬。

  4. 新的網絡交換芯片:擁有500億晶體管和3.6 teraflops的FP8計算能力,用於支持大規模GPU集群的通信。

  5. 擴展性:NVIDIA的系統可以擴展到數萬個GB200超級芯片,通過800Gbps的Quantum-X800 InfiniBand或Spectrum-X800以太網連接。


  1. 大規模部署:GB200 NVL72設計可以將36個CPU和72個GPU集成到一個液冷機架中,提供總共720 petaflops的AI訓練性能或1.4 exaflops的推理性能。

  2. 支持大型模型:單個NVL72機架可以支持高達27萬億參數的模型,而且有意思的是,黃仁勛似乎透露一下GPT-4的參數,它可能是一個約1.7萬億參數的模型。

(更多關於B200的解讀我們會在今天稍晚帶來,歡迎關註矽星人GTC後續報道)

黃仁勛回顧自己送給OpenAI的第一個DGX,它隻有0.17Peataflops,而今天的DGX Grace-Blackwell GB200已經超過1 Exaflop的算力。


老黃站在這張圖前講半天,這畫面讓你覺得摩爾定律可能真的死,黃氏定律正式登基。


在B200的發佈後,黃仁勛用一個AI生成的模擬短片介紹“配套”的一系列產品,從集群到數據中心的交換機等。基本都是性能怪獸。

GB200超級芯片就是將兩個B200 GPU與一個Grace CPU結合在一起,它能將成本和能源消耗比 H100降低多達25倍”。黃仁勛表示自己可得拿穩,“這塊很貴,可能100億?不過以後會便宜的。”現場爆笑。


與此同時,他也強調新一代芯片和相關產品在能耗上的改進。之前訓練一個1.8萬億參數的模型需要使用8000個Hopper GPU和15兆瓦的電力。如今,使用2000個Blackwell GPU就可以完成相同的任務,同時僅消耗4兆瓦的電力。


黃仁勛說,英偉達還正在將它們打包成更大的設計,比如GB200 NVL72,把36個CPU和72個GPU集成到一個單一的液冷機架中,提供總共720 petaflops 的AI訓練性能或1440petaflops的推理性能。它內部有近乎兩英裡的電纜,包括5000條獨立電纜。


此外他也特意強調推理性能的提升,畢竟英偉達最新的財報已經顯示,它的收入越來越多的來自客戶們在AI推理部分的支出。主要的雲廠商也都被點名表揚一下,他們和英偉達越來越不可分離。

軟件方面, 黃仁勛介紹到,英偉達正在打包預訓練模型及其附屬延伸,並簡化稱為NVIDIA推理微服務(NIMS)的微服務部署。這不僅僅是之前的CUDA,而是讓模型更易於實施和管理的平臺。


“你現在就可以下載,帶走,安裝在你自己的數據中心”,他說道。


並且NVIDIA提供服務幫助企業和應用程序對模型進行微調或定制。


在羅列一系列在氣象和科學上的合作後,黃仁勛開始進入關於機器人技術的部分,這場發佈會開始變得更加科幻。

黃仁勛說,英偉達正在押註的下一代產品是能夠控制人形機器人。Jetson Thor 就是接替NVIDIA Jetson Orin,為機器人技術推出的更新產品。


“確實,世界是為人類設計的,所以我們希望使用英偉達Thor芯片和GR00T軟件來訓練和管理新一代的人形機器人。這樣的機器人將能更好地適應人類設計的環境和工作流程,從而在多樣的任務和場景中提供幫助。”


機器人展示視頻過後,舞臺燈光再次亮起時,黃仁勛與身後所有由公司提供動力的人形機器人站在一起,向觀眾致意。不知為什麼有種鋼鐵俠的意思~


還領上來兩個在NVIDIA Isaac SIM中學會走路的迪士尼小型機器人。黃仁勛說話時它們一直扭扭捏捏,讓老黃不得不低頭憐愛地低聲說:“Orange(小機器人的名字),我在努力專心!不要再拖延時間”——超級可愛,把現場氣氛推向高潮。


而在黃仁勛和這兩個小機器人一起“打開”的謝幕視頻裡,一架微型小飛船飛過英偉達歷代GPU產品、架構,在光纜中完成技術巡禮,最後飛機艙門不經意的打開,駕駛員正是黃仁勛的卡通虛擬數字人。

主題演講結束前,黃仁勛又總結一遍今天的發佈會,而近距離鏡頭可以看到,黃仁勛似乎有些帶著淚光。

“如果你問我,心目中的GPU是什麼樣子,今天的發佈就是我的答案。”


他說今天他展示什麼是英偉達的靈魂。“我們站在計算科學和物理等其他一切科學的交叉點”。這是他心裡英偉達的定位。


“新的工業革命來。”而他沒說的,是藏在今天一堆PPT裡某一張的那行小字——英偉達,新工業革命的引擎。

這是黃仁勛的時代。


相關推薦

2024-03-19

兩個小時的演講中,黃仁勛公佈搭載B200芯片的GB200 Grace Blackwell超級芯片系統,以及英偉達在AI軟件(NIM微服務)、Omiverse雲、具身智能方面的最新進展。以下為演講內容回顧:黃仁勛登臺,對觀眾們強調:我希望你們搞清楚今天

2024-03-19

載新款AI芯片——B200芯片,以及搭載B200 AI GPU的GB200 Grace Blackwell超級芯片系統,並且公佈英偉達在AI軟件(NIM微服務)、Omiverse雲、具身智能等方面最新進展,暗示AI融入世間萬物可謂大勢所驅。在美東時間3月18日的下午2點至2點30分

2024-03-19

“最強AI芯片”BlackwellB200GPU的高調發佈,已不單單是穩固英偉達在芯片領域的王者地位,更是讓業內人士高呼:新的摩爾定律誕生!在隔夜的2024GTC大會上,黃仁勛介紹運行AI模型的新一代芯片和軟件。他表示,新一代的B200GPU擁

2024-03-21

革命(加速計算和生成式 AI)下,英偉達的新基建包括:Blackwell 平臺;NIMS;NEMO 和 NVIDIA AI Foundry;Omniverse 和 ISAAC 機器人。|圖片來源:NVIDIA01 GTC 新品的中國市場計劃問:新的網絡和技術計劃向中國銷售多少?有任何中國特定SK

2024-03-25

”,英偉達在GTC大會上亮出不少“黑科技”。其中,基於Blackwell架構的全新GPU芯片,性能是上一代的4倍,能效提升25倍,可謂“最強AI芯片”。全新AI微服務提供從應用軟件到硬件編程的一站式服務,在硬件、軟件和系統上全棧

2024-03-19

在奮力追趕,但也許NVIDIA即將擴大其領先優勢--憑借新的BlackwellB200GPU和GB200"超級芯片"。NVIDIA 首席執行官黃仁勛在 GTC 現場直播中舉起他的新 GPU(左邊),右邊是 H100。NVIDIA 表示,新的 B200 GPU 擁有 2080 億個晶

2024-03-21

深知這一點。”針對某些媒體引用英偉達最新一代AI芯片Blackwell定價在3萬至4萬美元的報道,黃仁勛本人進行澄清。他解釋說:“我當時的表述,隻是為讓大傢對我們產品的定價有個大致的概念,並非提供確切的報價。實際上,

2024-04-15

PU芯片性能,AI 算力性能提高1000倍。黃仁勛指的是全新的Blackwell架構B200芯片,比8年前的Pascal架構下的GPU產品提高1000倍 AI 性能。“現在,你可以擁有一臺搭載GPU顯卡、速度快100倍、能效高20倍、成本低20倍的計算機,能夠解決復

2024-03-21

本,而是為擴大規模。”作為GTC大會的核心,英偉達發佈Blackwell GPU,它分為B200和GB200系列,後者集成1個Grace CPU和2個B200 GPU。NVIDIA GB200 NVL72大型機架系統使用GB200芯片,搭配NVIDIA BlueField-3數據處理單元、第五代NVLink互聯等技術,

2024-03-21

拉開帷幕,在當天的主題演講上,CEO黃仁勛宣佈推出NVIDIABlackwell平臺,並宣佈推出Blackwell架構的B200GPU、GB200超級芯片等。同此前的GTC大會等重要活動一樣,經常以黑色皮夾克現身、有皮衣黃之稱的黃仁勛,在當天的大會上,仍是

2024-03-19

《見證AI的變革時刻》。發佈會上,黃仁勛介紹全新芯片Blackwell,他稱Blackwell的推理能力是驚人的,相較於前代產品H100有著驚人的提升,是Hopper的30倍。英偉達表示,Blackwell 架構的 GPU 預計將於今年晚些時候發貨。Blackwell以美國

2023-03-24

TC2023春季技術大會上,黃仁勛展示自研數據中心CPUGrace+高性能計算GPUHopper的合體產品GraceHopper全貌。對於推遲交付(從上半年推到下半年)的情況,黃仁勛在會後媒體環節交流時表示,GraceCPU和GraceHopper超級芯片系統都在制造中,

2024-03-20

今天凌晨,黃仁勛正式拿出新一代BlackwellGPU架構,以及基於此的B100/B200GPU芯片、GB200超級芯片、DGX超級計算機,再次將“戰術核彈”提升全新的境界,傲視全球。Blackwell B200 GPU首次采用chiplet晶粒封裝,包含兩顆B100,而B200之間再

2024-03-18

新爆料的細節看,B200以及RTX50系顯卡都會使用這個架構,Blackwell帶來的性能提升也是明顯的。按照最新爆料,B100將采用兩個基於臺積電CoWoS-L封裝技術的芯片,連接到8個 8-Hi HBM3e顯存堆棧,總容量為192GB,而這還不是唯一。爆料