爭奪AI核心算力市場 國產GPU進化得怎麼樣?


GPT-4的發佈以及全面植入微軟Office全傢桶,正在全球掀起新一輪人工智能(AI)風暴。作為目前應用最廣的AI芯片,GPU獲得廣泛關註。中國工程院院士、清華大學計算機系教授鄭緯民日前表示,ChatGPT需要三萬多片英偉達A100GPU,初始投入成本約8億美元。

華安證券研究所所長尹沿技認為,2012 年以來,AI訓練任務中的算力增長(所需算力每3.5月翻一倍)已經超越芯片產業長期存在的摩爾定律(晶體管數量每18月翻一倍)。

AI時代漸近,GPU需求的高速增長幾乎毋庸置疑,在美國禁售高速GPU的背景下,國內GPU企業當自強。如今GPU的國產化進程如何?國產廠商又將面臨哪些機遇和挑戰?

GPU:CPU的協處理器

GPU,Graphic Processing Unit,即圖形處理單元,是計算機顯卡的核心。

與CPU相比,GPU的邏輯運算單元較少,單個運算單元(ALU)處理能力更弱,但能夠實現多個ALU並行計算。同樣運行3000次的簡單運算,CPU由於串行計算,需要3000個時鐘周期,而配有3000個ALU的GPU運行隻需要1個時鐘周期。

不過,GPU處理並行計算並不是作為一個獨立的計算平臺,而是與CPU通過PCIe總線連接在一起來協同工作,可視為CPU的協處理器。

作為計算機的圖形處理以及並行計算內核,GPU最基本的功能是圖形顯示和分擔CPU的計算量,主要可以分為圖形圖像渲染計算 GPU和運算協作處理器 GPGPU(通用計算圖形處理器),後者去掉或減弱GPU的圖形顯示能力,將其餘部分全部投入通用計算,實現處理人工智能、專業計算等加速應用。

應用於人工智能場景的服務器通常搭載GPU、FPGA、ASIC等加速芯片,加速芯片和CPU結合能夠支撐高吞吐量的運算需求,為圖形視覺處理、語音交互等場景提供算力支持。GPU在架構設計上擅長進行大量數據運算,被廣泛應用於AI場景中。

此外,智能汽車領域,自動駕駛和智慧座艙需要大量使用GPU;遊戲作為GPU的傳統應用領域,需要GPU對遊戲畫面進行3D渲染。

根據Verified Market Research數據,2020年,全球GPU市場規模為254.1億美元(約合人民幣1717.2億元)。隨著需求的不斷增長,預計到2028年,這一數字將達到2465.1億美元(約合人民幣1.67萬億元),年復合增長率(CAGR)為32.82%。


英偉達CEO黃仁勛稱,英偉達的GPU在過去10年中將AI處理性能提高不低於100萬倍,在接下來的10年裡,希望通過新芯片、新互連、新系統、新操作系統、新分佈式計算算法和新AI算法,並與開發人員合作開發新模型,“將人工智能再加速100萬倍”。

推動GPU發展的兩大巨頭:英偉達與AMD

“目前國際的GPU行業市場主要由英偉達和AMD(美國超威半導體)兩傢占據。近些年,國外GPU技術快速發展,已經大大超出其傳統功能的范疇。”華安嘉業相關負責人告訴第一財經。

英偉達靠遊戲業務發傢,近年來在數據中心AI、汽車、元宇宙領域持續發力。2007年,英偉達首次推出通用並行計算架構CUDA(Compute Unified Device Architecture,統一計算設備架構),使GPU成為通用並行數據處理加速器,即GPGPU。CUDA 支持 Windows、Linux、MacOS 三種主流操作系統,支持CUDA C語言和OpenCL及CUDA Fortran語言。

CUDA 架構不用再像過去GPU架構那樣將通用計算映射到圖形API(應用程序編程接口)中,大大降低CUDA 的開發門檻。因此,CUDA推出後發展迅速,廣泛應用於石油勘測、天文計算、流體力學模擬、分子動力學仿真、生物計算、圖像處理、音視頻編解碼等領域。

這為英偉達拿下GPU過半市場份額奠定基礎——CUDA生態為英偉達GPU打造深厚的護城河。此後,英偉達通用計算架構持續升級迭代,2010年發佈Fermi架構,2012年發佈Kepler架構,GPU在通用計算中逐漸成為主角。

2017年,英偉達發佈專為數據中心和高性能計算打造的Tesla V100 GPU,采用Volta架構,有超過210億個晶體管,是上代Tesla P100的1.37倍,其數據中心AI業務自此開始快速增長。

AMD在2006年收購著名顯示芯片廠商ATI,後者一度與英偉達在GPU市場平分秋色。2019年,AMD發佈RDNA架構產品Radeon RX 5700,其采用7nm工藝、GDDR6顯存、PCI-e 4.0總線,使得其性能跑分超過英偉達的GeForce GTX 1080;2020年發佈AMDRDNA 2架構,實現性能提升1倍、能效提升至少50%、完整支持DX12U和光線追蹤等目標。RDNA 3架構也於2022年11月推出。

3D Center數據顯示,2022年二季度,英偉達在獨立GPU的市場份額為79%,AMD則占20%的市場份額,合計99%。Intel憑借在PC端的優勢占據剩下1% 的市場份額。

“如果未來十年如黃仁勛所說,AI會再產生100萬倍需求,我覺得算力是一個非常吸引人的投資環節。英偉達在美股 Forward 12個月的 PE遠遠高於平均水平,約50倍,其他半導體公司在20倍左右,這正是源於AI帶來的快速增長。就像10多年前看智能手機,四、五年前看電動車一樣,人工智能將給半導體產業帶來巨大的推動作用,這是信息革命。” 某基金制造業分析師對第一財經表示。

GPGPU:AI時代的算力核心

AI的實現包括訓練和推理兩個環節,前者是指通過大量標記過的大數據訓練出一個復雜的神經網絡模型,使其能夠適應特定的功能;後者指利用訓練好的模型,使用新數據推理出各種結論。

如上文所述,GPGPU將部分或全部圖形顯示能力投入通用計算,可應用於AI等加速領域和高性能計算。英偉達推出的CUDA架構大幅加速GPGPU的發展,目前GPGPU被視為AI時代的算力核心。

中信證券預計,2021年中國GPGPU市場規模為149.8億元,其中人工智能推理、人工智能訓練、高性能計算市場分別為93.5億/47.1億/9.1億元。

市場研究機構Verified Market Research預測,到2025年,中國GPGPU芯片板卡的市場規模將達到458億元,是2019年86億元的5倍多,2019-2025年CAGR為32%。其中,人工智能推理/人工智能訓練/高性能計算需求分別為286億/144億/28億元,占比分別為62.4%/31.4%/6.1%。

英偉達在中國加速芯片領域占據絕對優勢。根據天數智芯數據,2021年英偉達在中國雲端AI訓練芯片市場的份額達到90%。IDC數據顯示,2021年,中國加速卡出貨量超過80萬片,其中英偉達占據超過80%市場份額。

華安嘉業上述負責人告訴第一財經,GPU的核心競爭力在於架構等因素決定的性能先進性和計算生態壁壘。

一方面,性能先進性體現在高精度浮點計算能力。訓練需要密集的計算得到模型,沒有訓練,就不可能會有推理。而訓練需要更高的精度,一般來說需要float型,如FP32,32位的浮點型來處理數據。

另一方面,生態也是GPGPU發展需要解決的問題。英偉達早在CUDA問世之初就開始生態建設,AMD和Intel也推出自研生態ROCm和one API,但CUDA憑借先發優勢早已站穩腳跟。為解決應用問題,AMD和Intel通過工具將CUDA代碼轉換成自己的編程模型,從而實現針對 CUDA 環境的代碼編譯。

但中信證券表示,由於CUDA的閉源特性,以及快速的更新,後來者很難通過指令翻譯等方式完美兼容,即使部分兼容也會有較大的性能損失,導致在性價比上持續落後英偉達。同時,CUDA畢竟是英偉達的專屬軟件棧,包含許多英偉達GPU硬件的專有特性,這部分在其他廠商的芯片上並不能得到體現。

這也是國內廠商面臨的困境。當前國內GPU廠商紛紛大力投入研發迭代架構,謀求構建自主軟硬件生態。

上述負責人認為,國產GPU業應采取開放合作的心態,學會站在巨人的肩膀上,善於利用現有架構和生態,設計契合市場需求的優秀產品,打造全球化設計水平的開發團隊。在他看來,國產GPU在起步階段兼容現有生態更容易發展,先求生存;長期還是要擺脫兼容思路,站穩腳跟後再求發展自有的核心技術。

國產GPU迎來黃金發展期

IDC數據顯示,2021年,全球AI服務器市場規模達156億美元,同比增長39.1%,預計2025年將達317.9億美元,CAGR為19%。

2021年,中國加速服務器市場規模達到53.9億美元(約合人民幣350.3億元),同比增長68.6%。其中GPU服務器以91.9%的份額占國內加速服務器市場的主導地位;神經網絡處理器(NPU)、ASIC和FPGA等非GPU加速服務器占比8.1%。預計2024年中國GPU服務器市場規模將達到64億美元。

盡管市場空間巨大,但相比英偉達和AMD,國內GPU廠商的營收規模較小。財報顯示,國內GPU龍頭企業景嘉微(300474.SZ)2022年前三季度營收為7.29億元,而英偉達2023財年第四財季營收就超過60 億美元。

“國產GPU在信創方面已經實現逐步替代,AI&數據中心、智能汽車、遊戲等應用領域的國產GPU需求量也有極大的提升,國產GPU迎來發展黃金期,我們看好國產GPU公司的發展與投資機遇。”上述負責人稱。

目前景嘉微已成功研發JM7200和JM9系列GPU芯片,應用於臺式機、筆記本、一體機、服務器、工控機、自助終端等設備。

海光信息(688041.SH)的DCU也屬於GPGPU的一種,其DCU協處理器全面兼容ROCm GPU計算生態。據悉,ROCm和CUDA在生態、編程環境等方面高度相似,CUDA用戶可以以較低代價快速遷移至ROCm平臺,因此ROCm也被稱為“類CUDA”,主要部署在服務器集群或數據中心,為應用程序提供高性能、高能效比的算力,支撐高復雜度和高吞吐量的數據處理任務。


半導體初創企業中,芯瞳半導體、芯動科技、摩爾線程、天數智芯、壁仞科技等均已陸續推出產品。據悉,2020年開始,國內GPU行業融資環境有較大改善,初創公司遍地開花。

摩爾線程告訴第一財經,目前公司已推出的產品包括基於MUSA架構打造的兩顆全功能GPU芯片——“蘇堤”和“春曉”;面向信創市場的桌面級顯卡MTT S10、MTT S30和MTT S50;中國首張國產遊戲顯卡MTT S80;為數據中心打造的全功能GPU產品MTT S2000和MTT S3000、首個元宇宙計算平臺MTVESRSE、GPU物理引擎AlphaCore、DIGITALME數字人解決方案和AIGC內容生成平臺等。

沐曦集成電路產品涉及MXN AI推理芯片、MXC GPGPU、MXG圖形渲染GPU等,第一財經解到,2023年公司或將有第一款產品發佈。


篳路藍縷,以啟山林

需要承認的是,國產GPU產品走向高端還有較遠的距離。

“國內GPU芯片的研制雖然可滿足目前大多數圖形應用需求,但在科學計算、人工智能及新型的圖形渲染技術方面仍然和國外領先水平存在不小差距。”上述負責人表示。

此前在2022年8月31日,美國政府要求英偉達的A100、H100系列和AMD的MI 250系列及未來的高端GPU產品,是否可以售賣給中國客戶,需要獲得美國政府的許可。據中信證券,這幾款芯片均為用於通用計算的高端GPGPU,通常應用在人工智能計算的雲端訓練和推理場景以及超級計算機中,國內客戶多為雲計算廠商及高校、科研院所。

上述負責人稱,國內GPU實現自主可控面臨的首要問題是核心IP差距。

由於IP研發難度大、開發周期長,目前中國GPU開發者大多使用國外廠傢提供的IP,導致核心電路專利無法控制,後續更新無法進行。此外,國內GPU底層技術空白點較多,產品前端穩定性不理想,目前又很難在主線中高端電子產品上得到普及化應用,還需多年沉淀才能具有一定替代性。

“作為一個有著數十年發展歷程且相當成熟的細分行業,很多基礎問題已經有定式和最優解,並且形成可供授權的眾多專利IP,繞開這些已有IP,既不現實也不劃算。”上述負責人表示,所以,相對於“芯片裡用誰的IP”這種問題,我們真正需要關註的是這些企業怎樣更有效地利用現有商業化IP,快速完成產品迭代和團隊磨合。“需要指出的是,外購IP並不意味著無法自主可控,但對GPU企業的能力會要求很高。”

作為國內核心IP廠商,芯原股份(688521.SH)2016年通過收購圖芯美國,獲得GPU IP,並在此基礎上自主開發出NPU IP。

目前,芯原股份擁有用於集成電路設計的GPU、NPU、VPU、DSP、ISP、Displayprocessor六大類處理器IP,以及1400多個數模混合IP和射頻IP,均為公司團隊自主研發的核心技術成果。

除技術差距,國內GPU企業的發展還面臨著落地壓力和資金壓力。

“在落地應用中分析,不難看出很多的國產GPU都是應用在軍事、政府等部門,這僅僅是國產化的開始。”上述負責人補充道,另一方面,新創企業不僅面臨原材料和制造能力的供應緊張問題,還必須承受來自國內外同業的競爭壓力。對於GPU創企而言,巨大的研發費用和資本開支是必需,但長期、持續的利潤支撐才是GPU跨代發展的強勁驅動力。

“國產GPU的未來關鍵不在於個人消費市場,而是以自動駕駛、AI智能等領域為主的商用及工業市場,這些市場恰恰是目前國內的強勢區,憑借在新能源汽車及相關領域的突破及份額提升,國產GPU或許會走出一條與英偉達、AMD截然不同的發展道路。”上述負責人稱。


相關推薦

2024-05-10

收入。盡管如此,阿爾特曼表示,他仍對人工智能在勞動力市場上的潛在影響感到擔憂。去年,在接受CNBC采訪時,他曾表示自己對ChatGPT“略感惶恐”,警告稱,這一技術可能會“淘汰”許多工作崗位。AI帶來的崗位重構:替代與

2024-02-06

疇,而年貨背後所承載的生活方式、消費觀念,也在同步進化。現在人們采購年貨,已經不是純粹的為吃穿用度,很多時候是為犒勞自己一年的努力,慶祝新年。

2023-10-31

將為Blackwell GPU的生產提供基板。緯創資通和富士康都在爭奪這些訂單,但由於對良品率的保留和其他因素,緯創資通贏得所有早期訂單。NVIDIA的GB200(B100)人工智能服務器計劃於2024年推出。供應鏈已進入認證階段。市場傳言,

2023-08-10

為越級智能豪華座駕,全新一代BMW 5系全方位為中國市場量身定制,重點帶來純電動BMW i5。這是順應中國市場的發展趨勢的明智做法,將強化寶馬在中大型豪華轎車細分市場的嶄新地位。從外觀來看,全新一代BMW 5系

2022-10-04

戲上挑戰AMD、NVIDIA是不現實的,但在入門級的辦公及生產力市場,國產GPU仍可一戰。之前我們報道過兆芯參與的格蘭菲顯卡,其實另一傢國產GPU摩爾線程的桌面顯卡也值得關註,他們之前推出MTT S60高性能版桌面顯卡,還有入門

2022-06-23

也是專利最為幾種的區域。目前國產的車架車輪都在國際市場上開始嶄露頭角,但變速器似乎一直是軟肋。那麼這個行業現在到底如何瞭?今天就來簡單的介紹一下。國產變速器有哪些牌子?如果不是專註這個領域,很多人其實

2023-03-08

在我們繼續問這個問題後,它還是講上述兩個笑話。你覺得怎麼樣?8.有一種觀念認為,女性都應該結婚生孩子,把傢庭作為人生的重心,你怎麼看這種觀念?點評:兩款產品的回答內容差不多,必應的更詳細一點。9.日本女性

2024-02-08

“數理化”學科知識和技能,都將會被AI取代。這位勞動力市場經濟學傢警告年輕一代,不要一窩蜂地學習科學、技術、工程和數學(STEM)科目,他說“同理心”和創造性技能可能會在人工智能主導的世界中蓬勃發展。這位倫敦

2023-03-31

們來寫郵件、寫代碼、寫詩。而當語言模型在大跨步向前進化時候,AIGC的另一個重要分支——繪圖,最近其實也完全沒閑著。去年曾因拿下藝術比賽大獎而名噪一時的Midjourney,近期在AI生成圖片領域熱度可以說堪比OpenAI。Midjourn

2023-11-09

捷在華銷量的年年攀升:從2015年到2022年,保時捷在中國市場的銷量分別為5.8萬臺、6.52萬臺、7.15萬臺、8.01萬臺、8.68萬臺、8.9萬臺、9.57萬臺和9.33萬臺。中國連續8年,蟬聯保時捷全球最大單一市場。可惜的是,這個上漲勢頭在今

2023-11-10

片限制措施,但英偉達似乎並沒有放棄中國巨大的 AI 算力市場。那麼,國產芯片是否可以替代?經過測試,目前在大模型推理方面,國內 AI 芯片910B僅能達到A100的60%-70%左右,集群的模型訓練難以為繼;同時,910B在算力功耗、發

2022-07-20

的增長速率稍有下滑,但都保持15%以上的同比增幅,整體市場都是在穩步上升之中。然而,對於國產芯片產業來說,現在還遠沒有到慶祝的時候。如不少專傢所說,過去幾十年的國產芯片發展,大多以簡單芯片和直接“me too”的

2023-11-09

帶動,國內廠商踩上開源熱潮的風口。它們急著秀肌肉,爭奪大眾註意力。但從技術角度,尚不能說明它們就跑在前面。有觀點認為,開源模型雖多,但大多數都是從Llama派生出來。簡單來說,就是用Llama作為基模型,然後選用

2024-03-05

題目,我們來換換腦筋,看看Claude 3和GPT4在做飯方面表現得怎麼樣。我們上傳一張水煮肉片的照片,讓模型各自識別並給出做法,結果Claude 3給出大致的方法,而GPT4一口咬定這是一盤麻婆豆腐。除這次新增加的多模態能力,Claude