橡樹嶺國傢實驗室(ORNL)的Frontier超算,使用AMDEPYCTrentoCPU和InstinctMI550XGPU加速卡。為構建這套百億億級(Exascale)超算系統,ORNL還選用HPE的Slingshot連接方案。據悉,HPE的CrayEX架構,是專為大型應用程序而創建的。如果一切順利,Frontier將於2023年起向研究人員開放訪問,以協助其開展相關科學研究。
(via WCCFTech)
尷尬的是,由於硬件內部頻繁出現故障,Frontier 超算甚至無法在一整天內保持良好運行。
據悉,在啟動初期,這套超算最高隻能達成 1 ExaFLOPS 的 FP64 性能 —— 距 1.685 ExaFlops 的預設目標想去甚遠。
雖然官方尚未披露確切信息,但有傳聞稱 —— 為 HPE Cray 超算打造的 Slingshot 網絡互聯,與 HPE 集群發生沖突。
此外據說 AMD Instinct MI250X GPU 加速卡,也和 EPYC Trento CPU / Slingshot 互連方案水土不服。
ORNL Frontier 超算項目負責人或研究人員,尚未就上述兩則傳聞發表任何意見。
美國能源部(DOE)百億億次計算項目團隊的 Mike Bernhardt 指出 ——“隨著 ORNL Frontier 的全面集成,該超算將於明年開始向研究人員開放訪問”。
至於拖累 Frontier 超算全面啟動的任何擔憂或問題,他同樣沒有給出直接的回應。
Mike Bernhardt 補充道:
作為 Exascale 計算項目的合作夥伴,HPE 和 AMD 已於今秋提前向 ORNL 交付 Frontier 新系統。
然而超算的安裝和集成,是個相當龐大且復雜的工作、目前仍在進行之中。
現階段的進展表明,一切都在按計劃進行,且有望如期在明年向科學用戶開放。
此外需要指出的是,AMD 的 MI250X GPU 計算卡僅適用於特定客戶,因而缺乏橫向基準來支持相關傳聞。
美國能源部正與 ORNL 密切合作,以在錯過最初定下的 2022 年期限之後,於 2023 年 1 月 1 日全面投入運行。