作為特斯拉自行定制的超算平臺,Doji旨在為該公司的人工智能(AI)/機器學習(ML)應用提供支撐。尤其是利用其自動駕駛車隊采集的視頻數據,以展開相關訓練。此前這傢電動汽車巨頭已經擁有一臺基於NVIDIAGPU的大型超算,但Dojo已用上特斯拉的自研芯片和全套基礎設施。
Electrek 預計,這臺定制超算可提升特斯拉使用視頻數據訓練神經網絡的能力,相關計算機視覺技術可為其自動駕駛工作提供至關重要的支撐。
事實上,早在去年的 AI Day 活動期間,特斯拉就已表示在抓緊打造 Dojo 超算。在每套芯片+訓練塊的基礎上,該公司還致力於構建一套完整的 Dojo 機櫃(或 Exapod 集群)。
時隔一年,特斯拉在周五的 AI Day 活動期間,公佈 Dojo 項目取得的最新進展。
該公司證實,其現已能夠通過一個 Dojo 塊(tile)取代六張 GPU、且更具成本優勢。
更確切地說,該公司已成功地從一套“芯片+訓練塊”、發展到現在的“系統托盤”/ 完整機櫃。
每個托盤包含六個這樣的計算塊,且性能相當於 3~4 個滿載的超算機架。
目前該公司正在將主機接口集成到系統托盤上,以構建一套完整的大型主機組件,以將這些系統托盤安裝到一個 Dojo 機櫃中。
不過在將幾個機櫃組合成 Dojo Exapod 所需的基礎設施之前,該公司仍需對其展開更多研發測試。
Dojo 首席系統工程師 Bill Chang 補充道 —— 為應對前所未有的散熱和功率密度,他們必須重新審視數據中心基礎設施的各個方面,以開發定制的高性能散熱與電力系統。
尷尬的是,今年早些時候的基礎設施測試,還對當地電網的變電造成巨大的沖擊。最終在導致電網跳閘並被政府致電“問候”之前,他們已將功耗推升到超過 2 兆瓦。
最後,特斯拉分享 Dojo Exapod 的關鍵規格數據 —— 1.1 EFLOP @ BF16 / CPP8 性能、1.3 TB SRAM、以及 13 TB 的高帶寬 DRAM 。
如果一切順利,該公司計劃在 2023 年 1 季度擁有首個完整的 Exapod 集群(目前計劃在帕羅奧托擁有 7 個),同時試圖借助該活動招募到更多人才。