美國GPU禁令引發的風雲之變讓國產GPU被推到聚光燈下。“數字經濟的崛起與繁榮,離不開算力的強大支撐,計算芯片已然成為全球科技競爭的焦點所在。”中國工程院院士倪光南曾說。伴隨國內政策、資本、人才以及應用的紅利,一大批國內GPU企業已然嶄露頭角。
但GPU作為復雜的高端芯片,不止要面臨國外巨頭的高壁壘,還要在硬件、生態、應用層面做大量的研發和優化,國產化之路註定如西西弗斯推巨石一般的艱苦卓絕。
集微網本文將盤點九款最值得關註的國產GPU產品,一起來看看國產GPU發展水平如何。
1、凌久微,GP201
凌久微電子今年年中流片成功的產品GP201是一款采用統一渲染架構的自主高性能GPU,實現億門級超大規模集成電路設計,可滿足顯控、科學計算及人工智能等應用需求。據悉,凌久微電子主要從事GPU/SOC芯片產品設計研發、配套軟件生態構建等,其自研的圖形處理器(GPU)已經廣泛應用於商用計算機、國傢信息安全和高可靠性電子設備等領域。
RPP-R8芯片的技術指標主要包括:
主頻1GHz,單精度浮點1TFlops,采用PCIE GEN3 x16接口,最大支持32GB DDR4/LPDDR4顯存,支持4路4K高清顯示,支持DVI/HDMI/VGA/DP/eDP接口,支持OpenGL4.0、OpenGLES3.2、OpenCL3.0,支持H.264、H.265、MPEG2/MPEG4、VC-1、VP8等格式解碼,整體功耗小於30W。
2、壁仞科技,BR100
今年9月,壁仞科技首次展出BR100系列通用GPU芯片,算力創下全球紀錄。壁仞科技首款通用GPU芯片BR100,基於壁仞科技原創芯片架構研發,采用的是7nm制程工藝,可容納770億顆晶體管,16位浮點算力達到1000T以上、8位定點算力達到2000T以上,單芯片峰值算力達到PFLOPS級別,創下全球GPU芯片算力紀錄。BR100芯片在國內率先采用Chiplet技術,新一代主機接口PCIe 5.0,支持CXL互連協議,而BR100芯片也讓中國的通用GPU芯片邁入“每秒千萬億次計算”新時代,最為重要的是,這是第一次全球通用GPU算力紀錄由中國企業制造。同時展示的壁礪100 OAM模組,搭載的正是BR100芯片。
3、沐曦,7nm GPU已流片
沐曦(MetaX)的國產高性能AI推理GPU芯片設計研發。沐曦聯合創始人、CTO兼首席軟件架構師楊建博士日前接受媒體采訪,表示公司7nm GPU已經流片,不過支持遊戲功能的滿血GPU還要等到2025年。據悉,該產品主要用於AI推理場景,可在人工智能、自動駕駛、工業和制造自動化、智慧城市、自然語言處理、邊緣計算等領域應用,這一顆芯片預計很快量產。沐曦第二款用於科學計算、數據中心彈性計算、AI訓練等的旗艦GPU芯片也進入研發收尾階段,計劃於2024年全面量產。
據悉,沐曦創始人陳維良曾任AMD GPU設計高級總監、AMD全球GPU SOC設計總負責人、AMD全球通用GPUMI產品線(高性能計算、雲計算)設計總負責人。公司GPU設計研發團隊參與過AMD從圖像到高性能計算應用GPU的架構設計和量產。
4、芯動力,RPP-R8
芯動力也將持續專註於國產化GP-GPU芯片的設計與開發,致力於將基於自主創新RPP架構的芯片產品廣泛應用於各行業並行計算領域的需求場景中。目前以RPP技術研發的第一代RPP-R8芯片已經成功流片,基於全新自研架構,RPP-R8是一款為並行計算設計的高端通用異構芯片。RPP-R8芯片專註於並行計算領域。用基於CUDA的高級語言進行應用代碼編程,通過自有的指令集和開發工具進行深度優化性能,在高性能計算領域內RPP-R8可以得到最廣泛使用的編程語言的支持。與GP-GPU相比,RPP-R8具有更高的計算密度。利用架構的優越性,可以達到更高的計算能力,從而降低服務器的成本,達到更低的功耗。非常適合於高密度數據量的計算應用場景。
RPP-R8芯片的技術指標主要包括:
支持FP16/FP32/INT8等精度算力,算力達到[email protected],[email protected],[email protected];
支持PCIe Gen4,PCIe 帶寬雙向 64GB/s;
芯片面積600mm2,300W,RPP核心數20個,計算單元數量640個,核心頻率 1.5GHz。
支持主流深度學習網絡框架和主流深度神經網絡模型,支持任何英偉達支持的深度學習網絡模型,包含 CNN,Transformer 等;剪枝、量化後模型壓縮比與國際先進水平相當,準確率下降 1%以內,支持 64 路數視頻解碼。編程語言:CUDA 語言兼容,推理平臺:Tensor RT 兼容;機器視覺算法:支持Open CV。
值得一提的是,這款產品已經可以對標英偉達主流邊緣服務器JetsonXavier芯片產品。
5、智繪微,IDM9系列
智繪微電子IDM9系列產品均可支持OpenGL、OpenGL ES、EGL、Vulkan 等圖形標準和OpenCL計算標準。
公司首款GPU芯片IDM919像素填充率達到8GP/s,紋理填充率達到16GT/s,單浮點運算達到 256GFLOPS,第二款產品IDM929在微內核架構的優勢下,像素填充率性能提升2倍,紋理填充率性能提升是4倍,單浮點運算性能提升8倍。據悉,IDM919采用14nm工藝,支持1080P高清顯示,支持1路HDMI、VGA或DVI接口,全面支持飛騰、龍芯CPU、麒麟以及統信等國產操作系統,廣泛應用於桌面辦公、工業控制系統、顯示控制系統、地理信息系統、高性能計算等領域。
此外,智繪微電子IDM9系列第二款產品流片在即,計劃於2023年面世。第二款產品采用14nm工藝,支持4K超高清顯示,支持4路獨立顯示輸出,支持HDMI、VGA和DVI接口,支持H264、MPEG2、MPEG4、VC-1、DivX和VP6等格式硬件解碼,可以適配X86、國產基於ARM架構飛騰和基於MIPS架構龍芯CPU,同時全面支持麒麟、統信等國產操作系統,廣泛應用於桌面辦公、圖形工作站、工業控制系統、指揮控制系統、顯示控制系統、地理信息系統及高性能計算等領域。總體性能是第一款產品的8倍之多。
6、摩爾線程,GPU芯片“春曉”
摩爾線程正式發佈第二顆多功能GPU芯片“春曉”,集成220億個晶體管,內置MUSA架構通用計算核心以及張量計算核心,可以支持FP32、FP16和INT8等計算精度。相較於之前發佈的“蘇堤”芯片,“春曉”內置的四大計算引擎全面升級,帶來顯著的性能提升。春曉GPU將致力於滿足高端遊戲玩傢、以及更高圖形和計算能力的需求,以全面覆蓋高中低端應用。
“春曉”的產品亮點主要包括:
圖形渲染能力方面平均提升3倍;
編碼能力提升4倍,解碼能力提升2倍;
AI計算加速平均提升4倍,物理仿真計算性能提升2.5倍。同時,引入新技術支持窄帶高清,節約帶寬30%以上。
7、天數智芯,天垓100
天數智芯的天垓100 采用7nm制程工藝和2.5D CoWoS晶圓封裝技術,集成240億晶體管,支持多精度數據類型標準或混合訓練,提供片間互聯擴展,AI算力密度與能效比業界領先。當前,天垓100已支撐近百個客戶在人工智能領域進行超過兩百個不同種類模型訓練,ResNet50、SSD、BERT等骨幹網絡模型的性能比肩國際市場主流產品。公司的雲端訓練通用GPU芯片“天垓100”與浪潮AIStation智能業務生產創新平臺完成兼容性適配認證,將為自動駕駛、智慧城市、智慧金融、智慧醫療、智能制造等典型AI應用場景,,已適配X86、Arm等各種類型CPU架構,提供兼具高性能、通用性和靈活性的AI計算加速方案。
天垓100的產品亮點:
GPGPU 架構基於SIMT架構的可伸縮計算引擎,自主定義的豐富指令集支持GPU通用並行編程模型。內建FP32/FP16/BF16/INT多種數據類型指令,支持混合精度AI訓練。
CoWoS HBM2 7 納米制程、容納240億晶體管,2.5D CoWoS封裝,提供1.2TB/s超大帶寬和32GB超大容量內存,給海量數據並行處理引擎提供充足的數據支持。
主流生態兼容,支持主流的深度學習開發框架,兼容主流GPU的編程模式,有效對接現有軟件生態,易於擴展支持新的算法與應用領域,幫助用戶輕松實現無痛遷移。
8、象帝先,天鈞一號
今年9月,象帝先發佈擁有完全自主知識產權的國產GPU——天鈞一號。據解,這款GPU的綜合性能已達到國際先進、國內領先水平,尤其是極致的圖形渲染能力大幅領先國內同類產品,有效填補國內市場空白。近日,天鈞一號GPU與飛槳完成III級兼容性測試。測試結果顯示,雙方兼容性表現良好,整體運行穩定。
天鈞一號的技術指標主要包括:
采用 12 nm工藝,包含最多 2048 個高效 Compute Core 陣列,可提供高達 4T FLOPS 的 FP32 算力、16 TOPS 的 AI 算力和超過 128G Pixels/s 的像素填充率,高達 16GB 顯存和 256GB/s 帶寬;
產品支持國密系列算法和 GPU 虛擬化,築牢硬件安全基石;
支持OpenGL、OpenGLES、OpenCL、Vulkan、DirectX等主流API,支持PCIE 4.0x16高速接口;
不僅支持H264、H265、MEPG2/4、AV1等國際視頻編解碼標準,還率先支持我國自主的AVS/AVS+/AVS2視頻編解碼標準;
同時還支持HDMI、DP等多種高清接口及多屏多圖層4K超高清顯示,為數字辦公、視頻渲染、CAD、CAE、GIS、3D遊戲、AR/VR、智能制造、證券金融、AI訓練推理等場景提供高性能的產品選項。
在GFXBench 5.0的MANHATTAN 3.0測試中,基於盤古架構的天鈞一號GPU在測試成績上已經超越1660Ti、RX590、RX580一眾國外GPU產品。
9、礪算科技,G100
礪算科技的自研架構支持擴展到16384個計算核心,將有與英偉達Ada Lovelace系列的旗艦產品RTX 4090競爭的機會。礪算科技的第一代高性能GPU產品G100采用6nm工藝生產,性能對標英偉達在國內銷量最大、占比達90%的主流產品(10-20TFLOPS)。具體看來,礪算科技的自研架構支持擴展到16384個盤算焦點,而英偉達今年9月GTC官宣新一代RTX 4090,也是內置16384個CUDA Cores。這也意味著,未來礪算科技的產物將有與英偉達AdaLovelace系列的旗艦產物RTX 4090競爭的時機。
G100的產品亮點主要包括:差異於購置第三方IP,礪算第一代高性能GPU產物,不僅100%支持微軟的DirectX尺度,能夠沒有任何障礙地應用到PC上、籠罩量級最大的市場,也由於完整手藝團隊以及自研架構帶來的高性能(籠罩海內95%市場)、定制GPU的獨傢能力,具備現實的競爭優勢和耐久的生長潛力。
結語
國內GPU發展或許並不會因A800的出現而變慢,因為FDPR那把大劍始終懸在頭頂,還是需要未雨綢繆的。業內人士對集微網提到,美國層出不窮的禁令或斷供舉措主要是為阻擋中國的技術發展速度,但A800的推出也不會延緩國產GPU的替代之路,因為如果停下來就會落後。
集微咨詢認為,國產大算力產品的發展與英偉達是否推出替代產品關系不太大。面對禁令的影響,國內客戶即便短期會用A800來補位,但長遠計劃來看,也必須要將國產替代提上日程,對於國產GPU的大門始終是敞開的。
(校對/張傑)