突破大算力瓶頸:華為支持超萬億參數大模型訓練 等效於18000張卡


快科技9月22日消息,在華為全聯接大會2023期間,華為正式發佈全新架構的昇騰AI計算集群Atlas 900 SuperCluster,可支持超萬億參數的大模型訓練。

華為常務董事、ICT基礎設施業務管理委員會主任、企業BG總裁汪濤介紹,新集群采用全新的華為星河AI智算交換機CloudEngine XH16800,借助其高密的800GE端口能力,兩層交換網絡即可實現2250節點(等效於18000張卡)超大規模無收斂集群組網。

新集群同時使用創新的超節點架構,大大提升大模型訓練能力。

此外,發揮華為在計算、網絡、存儲、能源等領域的綜合優勢,從器件級、節點級、集群級和業務級全面提升系統可靠性,將大模型訓練穩定性從天級提升到月級。

為加速大模型創新,華為發佈更開放、更易用的CANN7.0,不僅全面兼容業界的AI框架、加速庫和主流大模型,還深度開放底層能力,讓AI框架和加速庫可以更直接地調用和管理計算資源,使能開發者自定義高性能算子。

汪濤表示,隨著人工智能進入大模型時代,大算力正在成為人工智能發展的核心引擎。華為改變傳統的服務器堆疊模式,以系統架構創新打造AI集群,實現算力、運力、存力的一體化設計,突破大算力瓶頸。


相關推薦

2024-08-31

算中心在哈爾濱正式運營。據悉,該智算中心具有單集群算力規模最大、國產化網絡設備組網規模最大等特點。單集群智算中心把所有AI加速卡打造成1個集群,用以支持千萬億級參數的大模型進行訓練。這個集群智算中心通過先

2024-06-19

一步推動大模型技術的進步。TeleAI不僅在技術創新上不斷突破,還積極通過開源方式推動大模型技術的普及和國產化進程。他們接連開源7B、12B、52B參數規模的大模型,這些模型在開源社區中引發廣泛討論和使用,開源模型下載

2024-03-24

3月24日消息,中國電信官方宣佈,首個國產單池萬卡液冷算力集群,天翼雲上海臨港國產萬卡算力池正式啟用,首批用戶也同時入駐。據介紹,這不僅是國內首個投入正式運營的國產單池萬卡液冷算力集群,也是業內領先的全國

2024-04-10

最高功耗800W,可滿足大規模語言模型、生成式AI模型的強算力需求。新一代的Gaudi 3面向AI訓練和推理,升級為臺積電5nm工藝,帶來2倍的FP8 AI算力、4倍的BF16 AI算力、2倍的網絡帶寬、1.5倍的內存帶寬。對比NVIDIA H100,它在流行LLM上

2024-03-14

心數量、緩存容量增加的不多,但性能實現飛躍,峰值AI算力高達125PFlops,也就是每秒12.5億億次浮點計算,堪比頂級超算。它可以訓練相當於GPT-4、Gemini十幾倍的下一代AI大模型,能在單一邏輯內存空間內存儲24萬億參數,無需分

2024-04-01

路400Gb IB、四路25Gb以太網網絡,一體化交付解決大規模GPU算力的建設和運營管理問題。誇娥氏是我國神話傳說中的大力神,出自《愚公移山》:“帝感其誠,命誇娥氏二子負二山,一厝朔東,一厝雍南。自此,冀之南,漢之陰,

2023-10-15

面上所有已經公開發佈參數規模的大語言模型,也有可能突破萬億級別。根據之前行業媒體的測算,如果要在10天內訓練1000億參數規模、1PB訓練數據集,大約需要10830個英偉達A100 GPU。按照每個A100 GPU的成本約為10000美元,那麼1083

2023-02-24

心戰略之一。目前,雲計算和人工智能的結合正處於技術突破和發展的關鍵時期,生成式AI正在發生顛覆性突破,阿裡巴巴將全力構建好自己的AI預訓練大模型,並為市場上風起雲湧的模型和應用提供好算力的支撐。張勇表示,

2023-07-07

。據此前華為輪值董事長胡厚崑介紹,華為通過架構創新突破算力瓶頸,推出對等平構架構,節點性能提升30%;通過在2019年推出的昇騰AI集群,把AI數據中心當成一臺超級計算機來設計,在同等算力的情況下,實現10%以上的效率

2024-03-20

量也沒說,但肯定會大大超過H100 16896個,不知道能不能突破2萬個?每顆B100連接四顆24GB HBM3E顯存/內存,等效頻率8GHz,位寬4096-bit,帶寬達4TB/s。如此一來,B200就有多達192GB HBM3E,總位寬8096-bit,總帶寬8TB/s,相比H100分別增加1.4倍

2023-11-10

GX H20在帶寬、計算速度等方面均有所限制,理論上,整體算力要比英偉達 H100 GPU芯片降80%左右,即H20等於H100的20%綜合算力性能,而且增加HBM顯存和NVLink互聯模塊以提高算力成本。所以,盡管相比H100,HGX H20價格會有所下降,但預

2023-03-10

即便是中途幹擾它,它也會堅持執行任務。PaLM-E擁有5620億參數,是GPT-3的三倍多,號稱史上最大規模視覺語言模型。而它背後的打造團隊,正是Google和柏林工業大學。作為一個能處理多模態信息的大模型,它還兼具非常強的邏輯

2022-06-23

大幅提升到瞭 2800 億,且 Google Brain 甚至宣佈訓練瞭一個超萬億參數的 Switch Transformer 模型。Cerebras 首席執行官兼聯合創始人 Andrew Feldman 表示:更大的 NLP 模型,意味著它的準確度也更高。但通常隻有極少數公司擁有如此龐大的

2024-02-15

力瓶頸會隨著模型尺寸變小、下一代芯片架構創新等取得突破來進一步破除,就像互聯網帶寬限制在 2000 年基本消失一樣,“GPU 也會發生同樣的情況”。另一種大模型廠商的典型代表則是 OpenAI,對於大模型技術,要不計成本地