Intel發佈Gaudi 3 AI加速器:4倍性能提升、無懼1800億參數大模型


美國當地時間4月9日,Intel舉辦一場面向客戶和合作夥伴的IntelVision2024產業創新大會,做出多項重磅宣佈,包括全新的Gaudi3AI加速器,包括全新的至強6品牌,以及涵蓋全新開放、可擴展系統,下一代產品和一系列戰略合作的全棧解決方案。

數據顯示,預計到2030年,全球半導體市場規模將達1萬億美元,AI是主要推動力,不過在2023年,隻有10%的企業能夠成功將其AIGC項目產品化。

Intel的最新解決方案,有望幫助企業應對推廣AI項目時所面臨的挑戰,加速實現AIGC落地商用。

Intel現有的Gaudi 2誕生於2022年5月,並於2023年7月正式引入中國,擁有極高的深度學習性能、效率,以及極高的性價比。

它采用臺積電7nm工藝制造,集成24個可編程的Tenor張量核心(TPC)、48MB SRAM緩存、21個10萬兆內部互連以太網接口(ROCEv2 RDMA)、96GB HBM2E高帶寬內存(總帶寬2.4TB/s)、多媒體引擎等,支持PCIe 4.0 x16,最高功耗800W,可滿足大規模語言模型、生成式AI模型的強算力需求。

新一代的Gaudi 3面向AI訓練和推理,升級為臺積電5nm工藝,帶來2倍的FP8 AI算力、4倍的BF16 AI算力、2倍的網絡帶寬、1.5倍的內存帶寬。

對比NVIDIA H100,它在流行LLM上的推理性能領先50%、訓練時間快40%。

Gaudi 3預計可大幅縮短70億和130億參數Llama2模型、1750億參數GPT-3模型的訓練時間。

在Llama 70億/700億參數、Falcon 1800億參數大型語言模型上,Gaudi 3的推理吞吐量和能效也都非常出色。

Gaudi 3提供多種靈活的形態,包括OAM兼容夾層卡、通用基板、PCIe擴展卡,滿足不同應用需求。

Gaudi 3提供開放的、基於社區的軟件,以及行業標準以太網網絡,可以靈活地從單個節點擴展到擁有數千個節點的集群、超級集群和超大集群,支持大規模的推理、微調和訓練。

Gaudi 3 AI加速器具備高性能、經濟實用、節能、可快速部署等優點,能夠充分滿足復雜性、成本效益、碎片化、數據可靠性、合規性等AI應用需求。

Gaudi 3將於2024年第二季度面向OEM廠商出貨,包括戴爾、慧與、聯想、超威等。

目前,Intel Gaudi加速器的行業客戶及合作夥伴有NAVER、博世(Bosch)、IBM、Ola/Krutrim、NielsenIQ、Seekr、IFF、CtrlS Group、Bharti Airtel、Landing AI、Roboflow、Infosys,等等。

此外,Intel還宣佈聯合Anyscale、DataStax、Domino、Hugging Face、KX Systems、MariaDB、MinIO、Qdrant、RedHat、Redis、SAP、SAS、VMware、Yellowbrick、Zilliz等夥伴,共同創建一個開放平臺,助力企業推動AI創新。

該計劃旨在開發開放的、多供應商的AIGC系統,通過RAG(檢索增強生成)技術,提供一流的部署便利性、性能和價值。

初始階段,Intel將利用至強處理器、Gaudi加速器,推出AIGC流水線的參考實現,發佈技術概念框架,並繼續加強Intel Tiber開發者雲平臺基礎設施的功能。


相關推薦

2024-04-01

近日,無問芯穹發佈“無穹Infini-AI”大模型開發與服務平臺,並宣佈與摩爾線程達成深度戰略合作。無穹Infini-AI基於無問芯穹的智算雲平臺,可服務生成式大模型的多種場應用落地,為應用開發者提供高性能、易上手、安全可靠

2023-07-16

,面對要求極為苛刻的、1750億參數的GPT-3模型,384個Gaudi2加速器上的訓練時間僅為311.9分鐘,而且從256個加速器到384個加速器,性能擴展幅度達95%。NVIDIA這邊在512塊 H100 GPU上的訓練時間則為64分鐘,論單卡性能的話是Gaudi2的3.6倍

2023-09-23

科技9月22日消息,在華為全聯接大會2023期間,華為正式發佈全新架構的昇騰AI計算集群Atlas 900 SuperCluster,可支持超萬億參數的大模型訓練。華為常務董事、ICT基礎設施業務管理委員會主任、企業BG總裁汪濤介紹,新集群采用全新

2024-08-31

要求。據項目負責人介紹,該隻算中心相當於300多萬臺高性能個人計算機每秒的計算能力,單集群相當於編隊,減少互相傳輸時間,在編隊內就把整個計算完成。

2023-11-06

今晚聯發科發佈天璣9300旗艦5G生成式AI移動芯片。天璣9300采用臺積電第三代4nm制程打造,率先支持LPDDR5T9600Mbps最快移動內存。為迎接與日俱增的移動計算力需求,聯發科跳出傳統架構設計思維,開創性地設計天璣9300的“全大核

2023-10-16

udi2深度學習夾層卡還符合 OCP OAM1.1(開放計算平臺之開放加速器模塊)等多種規范,可以為企業業務帶來系統設計的靈活性。在2023英特爾 On 技術創新峰會上,英特爾介紹的一臺大型 AI 超級計算機,便是完全采用英特爾至強處理

2023-11-10

團CEO吳泳銘發表講話。吳泳銘表示,阿裡巴巴即將開源720億參數大模型,這將是國內參數規模最大的開源大模型。這已經不是阿裡首次開源大模型,在今年8月份,阿裡上架兩款開源模型Qwen-7B和Qwen-7B-Chat,分別是通義千問70億參

2023-12-07

今年6月份,AMD在美國舊金山宣佈新一代AI/HPC加速器InstinctMI300系列,包括全球首款APU加速器MI300A、新一代GPU加速器MI300X。當時,AMD隻公佈一部分技術細節,對於CPU/GPU核心數量、性能/功耗/能效等指標均未提及,也缺乏足夠多的應

2024-03-14

CerebrasSystems發佈他們的第三代晶圓級AI加速芯片“WSE-3”(WaferScaleEngine3),規格參數更加瘋狂,而且在功耗、價格不變的前提下性能翻一番。2019年的第一代WSE-1基於臺積電16nm工藝,面積46225平方毫米,晶體管1.2萬億個,擁有40萬個AI

2024-03-20

14.4TFlops的網絡計算能力,比上代提升4倍。此外,NVIDIA還發佈第六代通用AI超級計算平臺“DGX B200”,包含兩顆Intel五代至強處理器、八顆B200 GPU,具備1.4TB HBM3E、64TB/s帶寬,FP4精度性能144PFlops(每秒14億億次),萬億參數模型實時推

2024-03-14

留在一起。在當今的集群中,可能有數以萬計的 GPU 或 AI 加速器來處理一個問題,將芯片數量減少 50 倍以上可以降低互連和網絡成本以及功耗。在具有 Infiniband、以太網、PCIe 和 NVLink 交換機的 NVIDIA GPU 集群中,大量的電力和成

2023-03-10

個模型參數量相加而來(5400億+220億)。PaLM是Google在22年發佈的語言大模型,它是Pathways架構訓練出來的,能通過“思考過程提示”獲得更準確的邏輯推理能力,減少AI生成內容中的錯誤和胡言亂語。Pathways是一種稀疏模型架構,

2023-11-14

奏,越來越可怕。就在剛剛,老黃又一次在深夜炸場——發佈目前世界最強的AI芯片H200!較前任霸主H100,H200的性能直接提升60%到90%。不僅如此,這兩款芯片還是互相兼容的。這意味著,使用H100訓練/推理模型的企業,可以無縫

2024-04-10

強6”(Xeon6),此前代號SierraForest、GraniteRapids。2017年,Intel發佈第一代至強可擴展處理器(代號Skylake),2023年年初和年底,先後帶來第四代SapphireRapids、第五代EmeraldRapids。按照慣例,Sierra Forest、Granite Rapids應該命名為第六代至強可