貓鼠遊戲中的英偉達


自步入人工智能時代以來,中國一直是英偉達的大客戶。2022年,英偉達銷售數據中,25%來自中國客戶,尤其是一些互聯網大廠,他們對英偉達的算力產品,比如H800,可以說是瘋狂買買買。但是隨著美國在2023年10月更新先進半導體和計算設備的出口管制,英偉達中國特供版GPUA800和H800都將在11月17號後禁止出口中國。

而且更難處理的是,華盛頓新的出口管制下,幾乎絕大多數高算力產品都不再能出口中國。

不過英偉達有他們的小心思,25%的巨大收入來源不可能說斷就斷,所以英偉達決定要和美國政府來一場貓鼠遊戲,要在這隻貓的眼皮底下,偷走奶酪。於是英偉達開始佈局一款新的產品——H20。註意,這個H20是“H”和“二十”,不是水分子的化學式。

H20這款產品的浮點運算能力僅有296TFLOPs,性能密度隻有2.9。這意味著它從紙面上看已經是一款超低性能產品,然而有意思的事情來,如此低性能的產品,依然有公司會買,而且它繼續引發美國的監管部門以及英偉達競爭對手的恐慌。在矽星人此前的文章《英偉達的美國對手們已經開始拿中國攻擊英偉達》中已經提到,英偉達的美國對手批評它不夠美國,而英偉達認為這些批評不合邏輯;而最近的消息是,美國商務部長 Gina Raimondo又點名英偉達,警告它停止為中國設計繞過出口管控的 AI 芯片。

所以,這個貓鼠遊戲裡,英偉達到底是如何做的?

3A090裡的文字遊戲

3A090,是華盛頓出口管制中的ECCN編碼物項。3A090特指特定高性能集成電路,當一顆芯片輸入輸出雙向傳輸速率超過每秒600GB,或算力超過4800TOPS時就屬於3A090,也就意味著禁止向中國出口。

上一次美國規定先進半導體出口措施的時候,英偉達旗艦產品A100和H100都被劃在禁止向中國出口的列表當中。英偉達當時采取的措施是推出低配版、但是同架構、且同樣配備高帶寬插槽版本(也就是SXM版本)的A800和H800。這兩塊產品在性能上和原版的A100、H100幾乎完全一致,甚至連內存芯片用的也都是HBM2e和HBM3這種當時的頂級內存芯片。頗有種孫悟空和六耳獼猴的感覺。

在上一次禁令發佈的時候,美國隻是對產品的具體型號做出禁止出口的規定,這才有H800和A800這種李逵李鬼的情況。所以這次新規就加入更為嚴格的限制,規定算力總和以及性能密度,所有人工智能產業能用到的高端張量計算GPU全都被劃進限制。

說得更直白一點,高性能的GPU不讓賣,低性能的GPU買也沒用。

然而有意思的事情來,禁令所限制的兩個詞匯“性能密度”和“總算力”,其實是一個文字遊戲。

什麼是性能密度?國際上有兩個說法,第一個是人工智能公司常用的,浮點計算能力FLOPs,也就是每秒浮點操作數除以單位面積內的晶體管數量得來的。第二個是MIPS,也就是每秒百萬指令數除以單位面積內的晶體管數量得來的。

我們都清楚一個道理,那就是“大人時代變”。就拿英偉達剛推出的新品H200所搭載的HBM3e來說,這顆芯片采用一種3D技術,通過立體空間堆疊的方式增加內存。如果隻按面積來說,那這顆芯片的性能密度就很高,但是要按體積算,這顆芯片的性能密度也挺高,隻是沒有按面積算那麼高而已。所以如果想要性能密度這個數字越小,算的時候以體積為單位就可以。畢竟除法嘛,分母越大結果越小。

另外MIPS通常比FLOPs大,因為在計算過程中除浮點,還有整數類型(INT)的運算。而且浮點自己還囊括單精度(32位)、雙精度(64位)等以所需存儲空間來劃分的類型。因為傳統FLOPs計算方式,往往隻會統計單精度和雙精度,因此一顆張量計算用的GPU,在數據測試的時候,也可以隻報單精度、雙精度的浮點,這樣無論是它的MIPS還是FLOPs都會很低。畢竟除法嘛,分子越小結果越小。

總算力這塊能玩的花活就更多。總算力,這個詞指的是每個核心的時鐘速度總和。英偉達H20,或者說整個H系列所采用的Hooper架構,它都是有多種核心的,比如專門用來做張量計算的TensorFloat32核心,還有腦浮點(BF16)核心。那剛才咱們聊,計算FLOPs時,可以隻計算單精度,雙精度,也就意味著它在算力總和的測試中,就可以隻計算單精度和雙精度核心,而不再啟用上述的這些張量計算核心。畢竟自然數加法嘛,加數越少結果越小。

綜上,作為一個算力芯片廠商,他們可以很簡單地把芯片數據弄得很低。這隻是一種可能的假說,因為英偉達的最終目的不是通過3A090的限制,他是要把產品賣出去,賺取利潤。一個性能極低的產品根本沒有市場銷路,就算設計出來也沒有實際的價值。

H20背後的真正秘密

區區是一張中上遊的遊戲顯卡RTX 4080,它的浮點運算能力都能達到320TFLOPs,同時RTX 4080的性能密度有6.8。H20尊為一個張量計算用的GPU,296的浮點和2.9的性能密度,就好像是一個超級富二代獨生子,從出生開始就享受世界上最優質的資源,頓頓早餐吃的煎餅果子都能加倆雞蛋,喝酸奶從來用不著舔蓋,結果到頭來算個10以內加減法都能把CPU幹冒煙。

可我要是說H20的Die足足有814平方毫米,和H100完全相同,閣下應該如何應對?這並不是好鋼用在刀背上,相反這正是H20的隱藏屬性。也正因此,才讓我更加相信,英偉達在H20的數據上,存在一些貓膩。

Die指的是芯片的裸晶,一般來說,越是性能優越的芯片,Die尺寸就會越大。比如RTX 4080的Die尺寸是379,而目前性能最好的遊戲顯卡RTX 4090的Die尺寸是609。因此,H20實際上並不是低端芯片,至少從芯片的制程來講,H20是站在第一梯隊的。

老鼠沒有貓力氣大,速度上也不占優勢,如果老鼠不想被貓抓住,那就要想方設法地躲起來,不暴露自己。

誠然,H20的浮點運算能力很低,可是H20 SXM的內存足足有96GB,更恐怖的是它的帶寬來到4Tbps。相較之下,1979TFLOPs浮點運算能力的H100 SXM隻有80GB的內存和3.4Tbps的帶寬。在人工智能領域,尤其是現在火熱的大語言模型中。內存是影響模型運行的關鍵,每10億參數就要消耗3到5GB的內存,如果內存溢出則會嚴重影響模型的質量,產生不可預估的後果。那也就是說,在面對實際應用的時候,H20能比H100承擔更大規模的大語言模型。

可能你會問,H20的浮點運算能力不行啊,光有內存沒用,跑的速度會慢。如果是2022年,那這的確是個大問題,畢竟沒有人工智能公司會考慮低效率的GPU,這樣做會拖垮整個訓練過程。可是2023年,英偉達的TensorRT-LLM已經問世,並且擁有TensorRT-LLM功能的H200即將要在2024年發售。

TensorRT-LLM是一個幫助GPU快速解決復雜計算的優化軟件,搭載在GPU內部,類似於遊戲顯卡驅動一樣。以H100為例,使用TensorRT-LLM後的H100,在對一些媒體網站進行文章摘要時的工作效率,比使用前快出整整1倍。而在700億參數的Llama2上,前者比後者快77%。目前流通在市面上的A800也好,H800也好,都沒有搭載TensorRT-LLM功能。H20很有可能,或者說板上釘釘的會搭載TensorRT-LLM。

英偉達雖然一直以硬件銷售為主,然而其軟件能力非同小可。比如DLSS,這是一種專門用來“欺騙”軟件。不過DLSS所騙的目標並不是用戶,而是顯卡。當計算機需要大量圖形計算時,DLSS會把圖形以極低分辨率的形式交給顯卡,它去騙顯卡說:“你幹這麼點活就得,剩下的不用你操心”,再通過DLSS技術還原成高分辨率的圖形,這會大幅減輕顯卡的壓力,進而提升畫面效果。

回到現在,TensorRT-LLM也是一個給GPU減壓減負的軟件技術,這就讓GPU能夠表現出本不該屬於它的性能。此外,如果英偉達真的隱藏H20的真實數據,實際上H20的表現力很有可能會超過H100。

你以為英偉達是壁虎,斷尾求生。實際上英偉達壓根不打算“閹割”,他們想的是換一種方式,繞過監管,達到目的。畢竟,如果H20算力很低,就算可以出口中國,也沒有買傢願意購買這樣的產品。當貓堵住一個老鼠洞,老鼠還是能有辦法溜出來,因為不可能隻有一個出口。

不隻是英偉達自己的貓鼠遊戲

英偉達有個好朋友叫做SK海力士,英偉達最新旗艦產品H200 SXM上的內存芯片HBM3e,就是SK海力士的。目前他們正聯手開發HBM4,以顛覆整個產業。英偉達也是SK海力士最大的客戶之一,如果英偉達失去中國市場,那麼SK海力士的損失也會是巨大的。

最重要的是,GPU是一個橫跨軟硬件兩個領域的事情,造就一個附加值極高的交易體系。比如英偉達的Hooper架構,也就是H100、H200、H800、H20所采用的架構,多種同架構的GPU並聯在一起,能夠更好地分配計算資源。一般來說,人工智能企業都是買很多塊GPU,而不是就買一塊。所以當人工智能公司進行算力擴展的時候,GPU的第一個附加價值就體現出來,它會要求人工智能公司隻能接著購買該公司的GPU產品。

第二個附加價值在於算法的開發,不同的GPU產品,比如AMD的MI,英特爾的Gaudi,他們的差別不隻有浮點運算能力、性能密度這些,還有指令集、邏輯芯片、底層語言上的差異等等。一個能在H100上運行的算法,不一定就完美適配MI300X。換言之,如果開發伊始就是基於某公司產品的話,後續的開發大概率也隻能基於同公司,甚至是同架構的產品。

第三個附加價值是反向的,由人工智能公司給予GPU公司。在算法的開發過程中總是會遇到各種各樣的難題,當這些難題反饋給GPU公司時,GPU就會清楚下一代產品應該做怎樣的改進。就比如上文說的HBM4,英偉達和SK海力士要非常清楚目前GPU在當前場景下還有哪些不足,才能做出足以顛覆產業的產品。

正是這些附加價值,綁定GPU公司和人工智能公司,形成復雜的裙帶關系。所以英偉達不能失去中國市場,不單單是為25%的銷售額,還有比銷售數字更重要的這些附加價值。中國的人工智能水平增長非常迅速,英偉達深知其中的利害。

在貓鼠遊戲中,老鼠之間也會互相打配合,有些負責吸引貓的註意力,有些負責搬運奶酪。還有一點,貓和老鼠都明白兩者雖然對立,但是存在著一個用來維持雙方平衡的灰色空間,既不黑也不白,兩者都能生存。貓不能一下子將老鼠全抓死,那樣貓就失去作用,老鼠也不能太猖狂,那樣會壓縮貓的生活空間。


相關推薦

2024-03-22

智能NPC,已經承擔起推動遊戲主線的任務!育碧的一個DEMO中,兩名個性鮮明的智能NPC帶著玩傢,在遊戲世界中暢遊十五分鐘。不僅對話過程流暢、表情動作自然,而且還最新支持多輪對話。最關鍵的是,與NPC的對話不再隻是閑

2023-07-23

往往與人類寫的評論無法區分。他說:「這是一個持續的貓鼠遊戲,但從根本上講,沒有什麼能夠區分人工智能創造的內容。」「你會發現一些系統聲稱它們可以區分人類寫的文本和 ChatGPT 的文本。但與他們試圖追趕的東西相比

2022-09-22

潤為6.56億美元,同比下降72%,環比下降59%;在這其中,遊戲業務收入為20.4億美元,同比下降33%,環比下降44%。遊戲業務可以說是導致英偉達營收下降的主要原因。此次在時隔兩年後,英偉達再次發佈面向遊戲端的新顯卡,一方

2023-11-03

根據官方介紹,AMDFSR是一項開源的跨平臺技術,旨在提高遊戲幀率的同時,保證高品質、高分辨率的遊戲體驗。FSR能為超過百餘款處理器和顯卡提供廣泛支持,在4K分辨率以及性能模式下可提供平均2.4倍的性能提升。同時開源的

2022-09-26

真正達到大量礦卡流入市場的程度。曾經“求卡無門”的遊戲玩傢們,面對顯卡降價不急著入手,畢竟,“你不買,我不買,明天顯卡降兩百”。英偉達首席執行官黃仁勛 圖/英偉達官網英偉達也是推手?2022年9月15日14時44分,

2024-02-21

0%的漲幅,這可能是因為華爾街意識到,與之前的周期(如遊戲或加密貨幣)相比,英偉達的人工智能實力是“一種越來越難以理解的長期動力”。在英偉達公佈季度業績和下個月GTC活動之前,Mosesmann重申他對英偉達的“買入”評

2022-09-21

,英偉達CEO黃仁勛在演講中發佈萬眾矚目的英偉達新一代遊戲顯卡RTX40系列。本次英偉達共發佈三款顯卡,分別是RTX40系旗艦顯卡RTX4090與定位高端的RTX408016GB、RTX408012GB。RTX 40系列顯卡采用新一代RTX架構,計算能力再次實現跨越式

2022-08-29

是什麼,“不受周期限制”可能是最多的答案。作為一個遊戲顯卡發傢的公司,英偉達先是乘上AI的東風,成一傢人工智能公司;然後比特幣帶火虛擬貨幣市場,它的顯卡被廣泛用於虛擬貨幣“挖礦”;再然後智能汽車產業崛起

2023-02-08

性能都要超過RTX 3090 Ti和RTX 3090。但是在4K分辨率下,某些遊戲表現甚至不如RTX 3090,位寬被大砍帶來的後果在遊戲中體現的淋漓盡致。而作為RTX 4070 Ti的基礎型號,RTX 4070在位寬方面或許也會保持192bit,這也就意味著RTX 4070在4K分

2022-09-23

所有測試都是在支持第三代深度學習超級采樣(DLSS 3)的遊戲中進行的,凸顯這項新技術對於性能的極大助推作用,而後英偉達還提到今明兩天的內容。今日遊戲:《微軟飛行模擬器》-- 103 FPS《戰錘 40K:暗潮》-- 138 FPS《虛幻引

2023-06-02

半導體行業第一個,CEO黃仁勛現在公開亮相必談AI,搞得遊戲玩傢心灰意冷,覺得這已經不是黃仁勛的重點。在臺北電腦展的采訪期間,黃仁勛也出面安撫,表示他們依然關心遊戲玩傢,而他解釋的角度也很獨特,稱RTX技術就給

2022-07-01

以來,英偉達的圖形處理器(簡稱“GPU”)一直受到電腦遊戲愛好者的歡迎,在加密技術繁榮時期,作為生成數字貨幣系統的重要組成部分,這些GPU獲得瞭第二次生命。盡管英偉達試圖限制其在該行業的敞口,但加密貨幣的上漲

2023-11-24

用戶一般會找第三方店鋪進行維修。3、如果隻是用來玩遊戲的話,其實可以選購RTX4080。目前國內RTX4080顯卡的價格比較穩定,而且入手渠道比較多。

2022-08-04

露更多細節。可知在1440p下,這張Alchemist架構顯卡在部分遊戲中的表現,要領先於英偉達RTX3060和AMDRX6600XT競品。據悉,Arc A750 顯卡采用精簡的 ACM-G10 GPU,具有 448 EU / 3584 ALU,輔以 192-bit @ 12GB 的 16Gbps GDDR6 顯存。標稱 TGP 功耗約 200W