快科技9月22日消息,在華為全聯接大會2023期間,華為正式發佈全新架構的昇騰AI計算集群Atlas 900 SuperCluster,可支持超萬億參數的大模型訓練。
華為常務董事、ICT基礎設施業務管理委員會主任、企業BG總裁汪濤介紹,新集群采用全新的華為星河AI智算交換機CloudEngine XH16800,借助其高密的800GE端口能力,兩層交換網絡即可實現2250節點(等效於18000張卡)超大規模無收斂集群組網。
新集群同時使用創新的超節點架構,大大提升大模型訓練能力。
此外,發揮華為在計算、網絡、存儲、能源等領域的綜合優勢,從器件級、節點級、集群級和業務級全面提升系統可靠性,將大模型訓練穩定性從天級提升到月級。
為加速大模型創新,華為發佈更開放、更易用的CANN7.0,不僅全面兼容業界的AI框架、加速庫和主流大模型,還深度開放底層能力,讓AI框架和加速庫可以更直接地調用和管理計算資源,使能開發者自定義高性能算子。
汪濤表示,隨著人工智能進入大模型時代,大算力正在成為人工智能發展的核心引擎。華為改變傳統的服務器堆疊模式,以系統架構創新打造AI集群,實現算力、運力、存力的一體化設計,突破大算力瓶頸。