770億晶體管的中國第一算力通用GPU芯片 壁仞科技BR100亮相海外


8月9日,國內科技創新企業壁仞科技(Birentech)正式發佈BR100系列通用計算GPU,號稱算力國內第一,多向指標媲美甚至超越國際旗艦產品。當地時間8月22日,第34屆HotChips芯片大會首日演講,NVIDIAHopper、AMDInstinctMI200、IntelPonteVecchio三大巨頭的通用GPU紛紛秀出肌肉,而與之並肩亮相的,就是壁仞科技BR100。

會上,壁仞科技聯合創始人、CTO洪洲與壁仞科技聯合創始人、總裁徐凌傑進行題為“Biren BR100 GPGPU: Accelerating Datacenter Scale AI Computing”的主題演講,為來自全球的專業聽眾介紹BR100芯片的特點與原創芯片架構的細節。

根據介紹,作為主要用於加速數據中心規模通用計算的GPGPU芯片,BR100具有極高的算力密度,單卡16位浮點算力達到PFLOPS級別,並具備高速片上與片外互連帶寬。

BR100采用7nm制程工藝、Chiplet小芯片設計和CoWoS 2.5D封裝技術,以OAM模組形態部署,能夠在通用UBB主板上形成8卡點對點全互連拓撲。

為支持強大的算力,BR100配備超過300MB的片上高速緩存,用於數據的暫存和重用,以及64GB的HBM2E高速內存。

它的核心計算單元由大量通用流式處理器組成,具備通用計算和2.5D GEMM架構的專用張量加速算力。

在原創架構層面,壁仞科技按照深度學習等通用負載的計算特點,提供一系列針對數據流的增強特性,包括特殊的C-Warp協同並發模式、張量數據存取加速器TDA、NUMA/UMA訪存模式、近存儲計算等。這些特性是BR100能夠在算力和能效比上達到全球領先水準的關鍵。

此外,壁仞科技還介紹一種新的TF32+數據類型,具備比TF32數據類型更高的精度。

在軟件方面,壁仞科技還介紹BIRENSUPATM軟件棧,其核心編程模型具有C/C++編程接口和運行時API,風格與主流的GPGPU開發語言和編程范式類似。

它能夠使開發者在BR100上非常容易地進行編程開發,同時大幅降低代碼遷移工作量,實現從主流編程環境向BIRENSUPA平臺的無縫遷移。

資料顯示,壁仞科技BR100集成多達770億晶體管,規模上堪比人類大腦神經細胞,已經非常接近800億個晶體管的NVIDIA GH100計算核心,而且BR100系列芯片一次就點亮成功!

性能方面,INT8整數計算2048 Tops(每秒2048萬億次)、BF16浮點計算1024 TFlops(每秒1024萬億次)、TF32+浮點計算512 TFlops(每秒512萬億次)、FP32雙精度浮點256 TFlops(每秒256萬億次)。

此外,它的外部IO帶寬達2.3TB/s,支持64路編碼、512路解碼,還支持PCIe 5.0、CXL互連協議。


相關推薦

2022-08-09

制造、2.5DCoWoS封裝技術、Chiplet小芯片技術,集成多達770億晶體管,規模上堪比人類大腦神經細胞,已經非常接近800億個晶體管的NVIDIAGH100計算核心。性能方面,INT8整數計算2048 Tops(每秒2048萬億次)、BF16浮點計算1024 TFlops(每秒1024萬

2022-08-09

用GPU芯片。主要參數方面,BR100系列采用7nm制程,集成770億晶體管,基於壁仞科技自主原創的芯片架構開發,采用Chiplet(芯粒)、2.5DCoWoS等先進的設計、制造與封裝技術,可搭配64GBHBM2E顯存,超300MB片上緩存,支持PCIe5.0、CXL互聯協

2022-10-21

顆人工智能處理器“AIU”,采用5nm工藝制造,集成多達230億晶體管。臺積電沒有透露代工廠,可能是臺積電,晶體管密度大約1.5億個每平方毫米。230億晶體管的規模不多不少,大大超過蘋果4nm A16 160億,不過不及NVIDIA AD102 763億、

2023-01-08

天垓100 采用7nm制程工藝和2.5D CoWoS晶圓封裝技術,集成240億晶體管,支持多精度數據類型標準或混合訓練,提供片間互聯擴展,AI算力密度與能效比業界領先。當前,天垓100已支撐近百個客戶在人工智能領域進行超過兩百個不同

2023-12-06

12月6日消息,據彭博社近日報道稱,中國GPU廠商壁仞科技近期獲得廣州政府支持的投資機構約20億元人民幣(約2.8億美元)的投資,為壁仞科技提供足夠的資金以維持運營。不過,目前壁仞科技的股東信息尚未發生變更。壁仞科

2023-03-27

。AI提升還需要大量的算力,蘇姿豐稱AMD正在制造超過1000億晶體管的芯片,從無到有需要3年時間,這時候AI才可以成為一個重要的工具,幫助開發人員縮短一半的工作時間,簡化開發過程。AMD所說的這個1000億晶體管的大殺器實

2024-03-30

在人工智能飛速發展的時代,對更強大計算能力的需求已成為未來進步的關鍵。因此,我們將目睹半導體晶體管數量的急劇增加,到本十年末有可能突破一萬億個大關。當半導體專傢們討論未來的進展時,GPU中的晶體管數量是一

2022-09-09

VIDIA正式發佈新一代加速顯卡H100,臺積電4nm工藝,集成800億晶體管,最高1.8萬個CUDA核心,功耗高達700W,80GBHBM3顯存。H100計算卡有SXM、PCIe5.0兩種樣式,PCIe版價格都要24萬元以上,SXM版會更貴一些,實際價格還不太確定。不過花這

2024-03-14

CerebrasSystems發佈他們的第三代晶圓級AI加速芯片“WSE-3”(WaferScaleEngine3),規格參數更加瘋狂,而且在功耗、價格不變的前提下性能翻一番。2019年的第一代WSE-1基於臺積電16nm工藝,面積46225平方毫米,晶體管1.2萬億個,擁有40萬個AI

2024-03-29

在之前的演講介紹中,臺積電曾多次談到萬億晶體管的路線圖。今天,在IEEE網站上,發表一篇署名為《HowWe’llReacha1TrillionTransistorGPU》的文章,講述臺積電是如何達成萬億晶體管芯片的目標。值得一提的是,本文署名作者MARK LIU

2024-03-19

,不過很可惜的是這位教授在2010年因病去世。恐怖的2080億晶體管言歸正傳,讓我們繼續關註此次Blackwell GPU。“我們需要更大的GPU,如果不能更大,就把更多GPU組合在一起,變成更大的虛擬GPU。”老黃在GTC上也確實這麼幹。Blackw

2024-03-14

能是之前的記錄保持者CerebrasWSE-2的兩倍。基於 5nm 的4萬億晶體管WSE-3專為訓練業界最大的 AI 模型而構建,為Cerebras CS-3 AI 超級計算機提供動力,通過900,000 個 AI優化計算核心提供 125 petaflops 的峰值 AI性能。一顆驚人的芯片,約等

2022-08-29

在站出來表示摩爾定律沒死,2030年芯片密度就提升到1萬億晶體管,是目前的10倍。在上周的Hotchips 2022會議上,Intel CEO基辛格做主題演講,他提到先進封裝技術將推動摩爾定律發展,將發展出System on Package,簡稱SOP,芯片制造廠

2023-01-05

4塊,還有128GB HBM3顯存。整個Instinct MI300顯卡擁有高達1460億晶體管,這是當前最復雜、集成度最高的加速卡,NVIDIA的H100也不過800億晶體管,Intel的Ponte Vecchio加速卡之前做1000億晶體管,現在MI300創新高。至於MI300加速卡的性能,AMD