AI芯片的一百種死法


前幾天,英偉達成為首傢市值達到2萬億美金的芯片公司,創造歷史。同一時間,一傢名為Groq的初創公司橫空出世,揚言“三年之內趕超英偉達”。Groq狠話的底氣,來源於它所開發的芯片——LPU。

LPU的全稱是Language Processing Unit,翻譯過來就是語言處理單元,是一種新型AI加速器。在它的支持下,大模型的推理速度快得驚人,瞬間能輸出長篇幅答案;而使用英偉達芯片的GPT-4,隻能一個字一個字往外蹦。

前者的響應速度最高可達到500T/S,而後者隻有40T/S[1]。

這是什麼概念?相當於一秒鐘生成300個單詞,7分鐘生成一部《哈姆雷特》長度級的文章。


Groq背後的團隊也可謂群星璀璨,公司CEO Jonathan Ross是Google初代TPU的設計者之一。早期GoogleTPU團隊的10位成員中,8位都跳槽到Groq。

自2016年成立,Groq就飽受市場關註。2020年,Groq的芯片被美國阿貢實驗室采用。2021年,Groq獲老虎環球基金等機構投資,估值超過10億美元。

然而,Groq公司的各種“挑釁”,英偉達完全沒放在眼裡。相比之下,此前“奧特曼7萬億美元造芯”的新聞出來之後,黃仁勛至少還出來說兩句。

畢竟,眼下Groq的種種套路,老黃可再熟悉不過。

文字遊戲

當下,制約AI芯片發展的主要困境,是內存墻:內存的傳輸速度遠遠慢於處理器算力,導致性能遲遲上不去。

如果把芯片想象成一個餐廳,那麼內存就是倉庫,處理器就是後廚。

倉庫送菜比後廚烹飪還慢,嚴重限制餐廳的出菜速度。因此,包括英偉達在內的芯片廠商,都在圍繞“倉庫(內存)”做文章。而Groq碾壓英偉達的秘訣,也藏在內存結構裡。

傳統計算機所使用的內存,其實有兩種:

DRAM容量較大,但傳輸速度較慢,起主存作用;而SRAM容量較小,但傳輸速度極快,作為緩存發揮輔助作用。一直以來,二者都是合作關系,缺一不可。

但Groq為追求極致的速度,摒棄DRAM,讓SRAM扛起LPU主存大旗。

相當於砍掉距離廚房較遠的大倉庫,直接將所有食材都堆在廚房邊的菜籃子裡。 這樣的設計思路下,LPU不但在速度上形成降維打擊,還輕松繞過兩個成本最高的技術: HBM和先進封裝。

這也構成Groq另一個大吹特吹的宣傳核心:便宜。

根據Semi Analysis的拆解,LPU由於具備架構優勢,物料成本僅為1050美元。相比之下,去年全球瘋狂的H100芯片,物料成本則達到3700美元[2]。

在售價層面,一塊LPU的價格是20000美元,遠低於H100的35000美元。


歷史無數次告訴我們,大部分彎道超車的結局都是有田下山,LPU也不例外。

大模型對內存大小也有著很高的要求。參數量越大的模型,運行時所需要存儲的數據也會更多。

SRAM雖然快,但缺陷是容量小,通常隻有4-16MB。Groq研發團隊多年苦心鉆研,最終也隻是將LPU的容量提升至230MB。而一塊H100的內存容量是80GB,兩者間差約356倍。菜籃子再怎麼升級換代,終究無法和倉庫相提並論。

想裝下所有的食材,唯一的辦法就是把菜籃子數量堆上去。因此,在運行同樣參數的模型時,需要用到的LPU數量就遠遠高於GPU。

前阿裡技術副總裁賈揚清就算一筆賬:

以運行LLaMA 70b模型為例,需要572張LPU,售價1144萬美元;但如果換成H100,其實隻需要8張,總價格在30萬美元左右——所謂的“便宜”壓根不成立。

芯片一多,整體的功耗成本也直線上升。LPU每年至少消耗25.4萬美元電費,而H100頂多花費2.4萬美元。


事實證明,Groq的遙遙領先,隻是隱去核心信息的文字遊戲。它所宣傳的“高速”,是以近乎誇張的使用成本換來的:運行三年LLaMA 70b模型,LPU的使用成本將比英偉達的GPU高出32倍。

當然,Groq的研發團隊,顯然對此心知肚明。選擇此時大張旗鼓,更像是一種拉投資的舉動。

事實上,這已經不是Groq第一次公開“蹭熱度”。

之前GPT Store剛發佈時,Groq給OpenAI的奧特曼發一封信,嘲笑使用GPTs跟在“深夜讀《戰爭與和平》一樣緩慢”。馬斯克的聊天機器人Grok發佈時,它也跑去貼臉嘲諷,質疑Grok抄襲自己的名字。


過去幾年,打著“替代英偉達”旗號的初創公司數不勝數,Groq隻不過是其中之一。目前,在超車英偉達的這條彎道,已經出現嚴重塞車。

前車之鑒

Groq最直觀的參考樣本,來自英國公司Graphcore。

Graphcore誕生之初,也曾拿著“技術路線別出心裁、演示視頻酷炫驚艷、性能數據秒殺同行”的劇本,拳頭產品IPU與Groq的LPU設計思路異曲同工,也是用高速的SRAM取代DRAM作為芯片內存,以實現極致的傳輸性能。

同時,Graphcore調整芯片架構,專註於處理高性能計算。

它曾頗有自知之明地表示“不與英偉達直接競爭”,隻將目標客戶定位在,特別需要大量高性能計算的化學材料和醫療等特殊領域。


Graphcore的兩位創始人

2019年,微軟成為Graphcore首款IPU的大客戶。 2020年5月,微軟科學傢將IPU內置於微軟Azure操作系統中,用於識別胸部X光片。 這位科學傢說道:

“Graphcore芯片可以在30分鐘內完成,GPU需要5個小時才能完成的工作。”

在最風光的2016至2020年間,Graphcore共拿到7.1億美元融資,估值高達27.7億美元,一度被視為全英國乃至歐洲全村的希望。Graphcore的投資者不僅有微軟、三星、戴爾等科技巨頭,也囊括紅杉資本、柏基投資等頂級風投。

相比今天的Groq,當年的Graphcore隻能說有過之無不及。但Graphcore的後續發展卻遠遠不及當時的預期。

2022年,Graphcore全年營收隻有270萬美元,為英偉達同期收入的萬分之一,且相較前一年下降46%,虧損達到2億美元。 2023年,人工智能浪潮爆發,英偉達業績再度暴漲。 H100一卡難求之時,Graphcore以為自己至少能撿到英偉達的漏,結果卻連湯都沒喝著。

去年,Graphcore的創始人Nigel Toon向英國首相寫篇“公開信”,討要補貼。

他寫道,“Graphcore已經為英國預留多達3000個IPU芯片,可以為整個國傢提供服務”,幾乎已經是明示要錢[4]。


不久前,一面業績虧損,一面融資無果的Graphcore走向最後一條路: 尋求收購。 根據The Telegraph爆料,其售價可能在5億多美元——不到2020年最高估值時期的五分之一[5]。

當年,以Graphcore為首的挑戰者們,各懷絕學,來勢洶洶,頗有一種八大門派圍攻光明頂的既視感。然而,如今多已散作鳥獸狀。

去年3月,芯片公司Mythic一度因資金耗盡而瀕臨倒閉,快要淹死之際,才好不容易等到救命韁繩,拿到1300萬美元融資。

另一傢芯片公司Blaize也出現類似的困境,最後靠著中東土豪的投資,才活下來。

剩下的公司中,Habana可能是唯一活得不錯的——它被英特爾以20億收購,保留獨立運營的權利。


從Graphcore到Mythic,這些芯片公司的技術路線各不相同;然而,它們失敗的原因,卻出奇一致。事實上,今天大火的Groq,同樣也極有可能倒在同一個地方:

芯片賣不出

真正的護城河

英偉達的GPU固然厲害,但它賣芯片的套路,才是真正的護城河。

每年,英偉達都會投入相當一部分的研發經費,圍繞GPU搭建系統性能力。當然,這是高情商的說法,低情商的說法是開發一起“捆綁銷售”的產品——這才是英偉達最堅實的城墻。目前,英偉達的城墻共有3層:

第一層城墻,是CUDA的編程生態。

眾所周知,GPU最初的使用場景是遊戲與視頻圖像渲染。早期,一些華爾街精英偶爾利用GPU的並行計算能力來跑交易,但由於需要重新編寫大量代碼,因此並未廣泛傳播開來。

黃仁勛堅信GPU能用於更多領域,因此在2006年推出降低編程門檻的軟件架構CUDA,和自傢GPU捆綁推出。

後來,蘋果和AMD都推出類似平臺,但此時CUDA生態早已構建,在“用得人越多,CUDA越好用,新開發者越傾向於選擇CUDA”的良性循環中穩定前進。

如今,CUDA可以讓英偉達GPU的使用成本大幅降低。

一位私有雲CEO曾在接受采訪時說過,理論上AMD卡也不是不能用,但要把這些卡調試到正常運轉,需要多耗費兩個月[6]——找誰下單,答案不言而喻。


2017年,英偉達甚至向AI研究員贈送V100芯片

第二層城墻,是NV-Link的高速傳輸。

一個數據中心,不可能隻使用一塊AI芯片。然而,如果將2塊AI芯片連在一起,那麼實際算力必然會小於2,因為數據傳輸的速度慢於芯片算力,且過程中還存在損耗。

顯然,在GPU數量迅速膨脹的數據中心內,解決數據傳輸問題其關鍵。

2016年,英偉達為IBM服務器提供GPU時,首次用上自研的NVLink技術,帶寬高達80G/s,通信速度提高5倍,性能提升14%,好評不斷。此後幾年,英偉達一邊迭代NVLink技術,一邊規定該技術必須綁定自傢芯片使用。

套路雖然簡單直白,但就是有效。

而第三層城墻,則是英偉達的“鐵桿好兄弟聯盟”。

過去一年,英偉達是全球最主要的人工智能投資人之一,活躍程度甚至超過a16z和紅杉等頂級投資機構。

據外媒統計,英偉達去年至少有35筆人工智能投資,包括:由前DeepMind聯合創始人創辦的Inflection AI,歐洲人工智能獨角獸Mistral,世界最大的開源模型社區Hugging Face等等[7]。


Inflection AI創始人蘇萊曼

積極投資的目的,其實很簡單:當黃仁勛提著美金和H100芯片,敲開這些公司的大門,沒有人會再拒絕英偉達。

這所有的一切,足以讓市面上絕大多數公司,都綁死在英偉達的船上。

面對性能強大的英偉達GPU,各路初創公司們或許有辦法,打造出性能相匹敵的產品。然而。英偉達賣芯片的套路,卻讓這些公司始終難以招架。因此,Graphcore等挑戰者的失敗,真的不是不努力。

當眼下的炒作逐漸回歸寂靜,Groq也得思考相同的問題:到底誰會翻過三座大山,來買LPU?

尾聲

2月23日,英偉達市值突破2萬億美元。距離上一個1萬億,僅僅過9個月。

Groq的爆火,讓市場又一次開始討論同一個問題:到底有沒有人能叫板英偉達?

遺憾的是,英偉達遠比人們想象的要強大。人工智能浪潮給芯片行業提供一塊大蛋糕,英偉達並沒有分的意思,而是整個端走塞進口袋。

芯片初創公司Mythic的CEO曾憤然表示,人工智能火,他們卻更難融資,就是英偉達“搞壞大環境”。

根據PitchBook數據,截至2023年8月底,美國芯片初創企業融資8.814億美元,約為2022年同期的一半。交易數量的變化則更加觸目驚心:從23宗減少到4宗[8]。

Graphcore、Mythic的前車之鑒歷歷在目,所以也不怪Groq跟大傢玩兒文字遊戲。面對這麼一個“湯都不給喝”的龐然大物,Groq又能怎麼辦呢?


相關推薦

2022-09-07

開始就要考慮到最終的結果,中國市場最終不需要那麼多芯片公司,大浪淘沙,勝者為王。國產芯片公司創始人和投資人,也許從一開始就心知肚明。適逢其時,寫此文章。浩浩蕩蕩的中國芯片創業大潮,也到該退潮的時候。然

2023-05-11

們以前最先進的語言模型還好”,PaLM 2使用Google定制的AI芯片,比初版PaLM的運行效率更高。PaLM 2能使用Fortran等20多種編程語言,它還可以用100多種口頭語言。Ghahramani透露,現在約有20種Google的產品使用PaLM 2,輕量級的PaLM 2版本可

2024-07-31

風光和無盡的人文魅力,吸引著四面八方的遊客,欣賞過一百種草原的美景,在想象中構想過一百種草原的遼闊,但都不如親身來呼倫貝爾看一看。這裡有一望無際的綠色海洋,微風輕拂,草浪滾滾,仿佛大自然的呼吸。有湛藍

2023-02-10

軟公司副總裁兼消費者首席營銷官尤素福-邁赫迪在今天的一篇Twitter文章中說,在必應等待者上線48小時後,有超過一百萬人註冊,以獲得新的支持聊天機器人的搜索引擎的權限。分析公司data.ai報告說,自本周早些時候推出新的

2022-07-25

前,華為麒麟980、巴龍5000、鯤鵬920、昇騰310等多顆自研芯片被國傢博物館收藏。據悉,華為麒麟980於2018年發佈,這是全球首款采用7nm制程工藝的手機芯片,同時還是全球首次實現基於Cortex-A76的開發商用,並在業內首發商用Mali-G

2022-07-05

終端。現在,該公司上月底向聯邦通信委員會(FCC)提交的一份新申請顯示,Starlink公司的目標是評估其終端與衛星保持更長時間連接而盡量減少用戶對信號丟失的困擾。該測試旨在測試的關鍵規格是用戶終端的發射占空比。在

2023-05-15

球AI工具,普通用戶使用AI工具更加方便。360AI商店針對幾百種工具做分類梳理,有統一陳列展示和導航,如AI作圖,AI作文,AI做音樂,AI幫助寫各種東西,讓很多普通用戶,不用到處亂找。據悉,360AI商店類別包括,人工智能算

2024-04-16

力。每個月還會對其進行超過20000次的攻防測評,模擬上百種偽造攻擊情況,使產品始終保持領先優勢。為進一步完善ZOLOZ Deeper,螞蟻集團還通過"螞蟻集團安全響應中心"官網,設立超百萬的獎金池,鼓勵"安全極客&quo

2023-02-25

,曾獲得“世界科幻協會最佳期刊獎 ”,並入選“中國百種重點社科期刊”。

2024-01-09

公司的管理和研發流程不正規,反對公司用盜版軟件去做芯片,盜版做出來芯片會有bug的,芯片質量無法保證的。孫某稱,該公司連EDA設計工具都是盜版的,甚至盜版上百種軟件,服務器也從來沒付過錢。甚至芯片覆蓋率隻有20%

2023-01-21

nAI的ChatGPT基礎,GPT-3等大型語言模型的核心所在。在本周的一篇博文中,該公司總結Google正在使用人工智能的幾個領域,從建議電子郵件回復到投放廣告。Google沒有立即回應評論請求。Loup Ventures的分析師Gene Munster認為ChatGPT、GPT-

2023-12-02

務商同樣喜歡Arm服務器CPU可定制化特性的還有最重要的AI芯片提供商之一——英偉達。在英偉達強大的GH200超級芯片中,包含72顆Arm Neoverse核心,加上英偉達的GPU,GH200的AI性能較基於x86架構的系統可提升10倍。為滿足更多客戶在基

2023-11-11

餘時間做一個:HeyGenClone。用的是谷歌翻譯,可以支持上百種目標語言,但隻支持原語言為英文的視頻。由於隻給一個很短的俄語效果展示,不是很好評鑒,這裡就不放視頻~參考鏈接:[1]https://twitter.com/dotey/status/1722543725459452211

2022-08-04

上周美國眾議院通過《芯片與科學法案》(下稱“芯片法案”),將為在美國本土新建芯片工廠補貼數百億美元作為激勵措施。該法案原計劃在本周二由美國總統簽署,不過由於拜登核酸再次被檢測為陽性,芯片法案的簽署計劃