突破大算力瓶頸：華為支持超萬億參數大模型訓練等效於18000張卡

2023-09-23 來自快科技發表於業界精選

快科技9月22日消息，在華為全聯接大會2023期間，華為正式發佈全新架構的昇騰AI計算集群Atlas 900 SuperCluster，可支持超萬億參數的大模型訓練。

華為常務董事、ICT基礎設施業務管理委員會主任、企業BG總裁汪濤介紹，新集群采用全新的華為星河AI智算交換機CloudEngine XH16800，借助其高密的800GE端口能力，兩層交換網絡即可實現2250節點（等效於18000張卡）超大規模無收斂集群組網。

新集群同時使用創新的超節點架構，大大提升大模型訓練能力。

此外，發揮華為在計算、網絡、存儲、能源等領域的綜合優勢，從器件級、節點級、集群級和業務級全面提升系統可靠性，將大模型訓練穩定性從天級提升到月級。

為加速大模型創新，華為發佈更開放、更易用的CANN7.0，不僅全面兼容業界的AI框架、加速庫和主流大模型，還深度開放底層能力，讓AI框架和加速庫可以更直接地調用和管理計算資源，使能開發者自定義高性能算子。

汪濤表示，隨著人工智能進入大模型時代，大算力正在成為人工智能發展的核心引擎。華為改變傳統的服務器堆疊模式，以系統架構創新打造AI集群，實現算力、運力、存力的一體化設計，突破大算力瓶頸。

相關推薦