特斯拉Dojo超算細節大公開:涉及指令集結構、數據格式等


特斯拉備受關註的Dojo超算指令集結構細節史上首次大公開!而且還大秀一把Dojo的數據格式、系統網絡,以及軟件系統繞行死節點的能力。關於特斯拉自研的AI芯片D1,更多細節也被披露。

原標題:特斯拉Dojo超算最新細節大公開!涉及指令集結構、數據格式,還有系統網絡

一切來自剛剛舉辦的矽谷芯片技術研討會HOT CHIPS,聽特斯拉硬件工程師Emil Talpes怎麼說。

特斯拉Dojo超算

所謂Dojo,是特斯拉自研的超級計算機,能夠利用海量的視頻數據,做“無人監管”的標註和訓練。

它有高度可擴展且完全靈活的分佈式系統,能夠訓練神經網絡,還能適應新的算法和應用。

不僅如此,還能從頭開始構建大系統,而不是從現有的小系統演變而來。

每個Dojo ExaPod集成120個訓練模塊,內置3000個D1芯片,擁有超過100萬個訓練節點,算力達到1.1EFLOP*(每秒千萬億次浮點運算)。

微架構方面,每個Dojo節點都有一個內核,是一臺具有CPU專用內存和 I/O接口的成熟計算機。

這很重要,因為每個內核都可以做到獨立處理,而不依賴於共享緩存或寄存器文件。

每個內核擁有一個1.25MB的SRAM,這是主存儲器。這種SRAM能以400GB/秒的速度加載,並以270GB/秒的速度存儲。

芯片有明確的指令,可以將數據移入或移出Dojo超算中其他內核的外部SRAM存儲器。

嵌入SRAM中的是列表解析器引擎(list parser engine),諸如此類的引擎可以將信息一起發送到其他節點或從其他節點獲取信息,無需像其他CPU架構一樣。

至於通信接口,每個節點都與2D網格相連,在節點邊界處每周期有八個數據包。而且每個節點都有獨立的網絡連接,能與相鄰節點進行無縫連接。

關於Dojo的指令集,它支持64位標量指令和64B SIMD指令,能夠處理從本地到遠程內存傳輸數據的原語(primitives),並支持信號量(semaphore)和屏障約束( barrier constraints)。

特斯拉自研AI芯片新進展

數據格式對AI來說至關重要,特別是芯片所支持的數據格式。

特斯拉借助Dojo超算來研究業界常見的芯片,例如FP32、FP16和BFP16。

FP32格式比AI訓練應用的許多部分所需的精度和范圍更廣,IEEE指定的FP16格式沒有覆蓋神經網絡中的所有處理層。

相反,GoogleBrain團隊創建的Bfloat格式應用范圍更廣,但精度更低。

特斯拉不僅提出用於較低精度和更高矢量處理的8位FP8格式,還提出一組可配置的8位和16位格式,Dojo超算可以在尾數的精度附近滑動,以涵蓋更廣泛的范圍和精度。

在給定時間內,特斯拉最多可以使用16種不同的矢量格式,但每個64B數據包必須屬於同一類型。

特斯拉自研的D1芯片,是Dojo ExaPod的核心。

由臺積電制造,采用7納米制造工藝,擁有500億個晶體管,芯片面積為645mm²,小於英偉達的A100(826 mm²)和AMD Arcturus(750 mm²)。

每個芯片有354個Dojo處理節點和440MB的靜態隨機存儲器。

D1芯片測試完成後,隨即被封裝到5×5的Dojo訓練瓦片(Tile)上。

這些瓦片每邊有4.5TB/s的帶寬,每個模組還有15kW的散熱能力的封蓋,減掉給40個I/O的散熱,也就是說每個芯片的散熱能力接近600W。

瓦片也包含所有的液冷散熱和機械封裝,這和Cerebras公司推出的WES-2芯片的封裝理念類似。

演講最後結束時,特斯拉工程師Emil Talpes表達如下觀點:

我們最終的目標是追求可擴展性。我們已經不再強調CPU中常見的幾種機制,像是一致性、虛擬內存、全局查找目錄。隻因為當我們擴展到非常大的系統時,這些機制並不能很好地隨之擴展。

相反,在整個網格中我們依靠的是那種快速、分散的SRAM存儲,這樣能夠得到更高數量級的互連速度支持。


相關推薦

2022-10-01

特斯拉的人形機器人來,成本不到2萬美元(約合人民幣14萬元),最快3年內或許就能買到。就在今天,特斯拉又一次舉辦AIDAY活動,仍然發揮延遲開始的傳統藝能。與往常馬斯克主講的模式不同,在本次AI DAY上,馬斯克穿著“撞

2022-10-05

特斯拉為演示其Dojo超級計算機的AI系統堆棧部分,於是公佈多張由AI生成“CybertruckonMars”設計。特斯拉的AIDay並非面向普通消費者,馬斯克表示該活動充滿大量技術細節,主要針對的是人工智能和機器人專傢。演講中更有趣的部

2022-10-02

作為特斯拉自行定制的超算平臺,Doji旨在為該公司的人工智能(AI)/機器學習(ML)應用提供支撐。尤其是利用其自動駕駛車隊采集的視頻數據,以展開相關訓練。此前這傢電動汽車巨頭已經擁有一臺基於NVIDIAGPU的大型超算,但

2023-11-22

理想可能不會采用目前應用廣泛的 GPU 架構,而是采用與特斯拉 AI 超級計算機 Dojo 或者 AI 芯片初創公司 Tenstorrent 類似的架構。上述人士表示,“謝炎是做編譯器出身,希望能夠用軟件調度實現降維打擊,提高利用率。”特斯拉

2022-09-02

特斯拉不僅在電動汽車行業實力強大,近年來還在研發腦機系統,並且有自研的高性能芯片,未來甚至要超過人類大腦的算力——預計這個目標在2033年實現。根據汽車和貨車租賃公司Vanarama的一項新研究,特斯拉的汽車將在2033

2022-08-16

眾所周知,特斯拉內部一直在積極研發一套針對神經網絡視頻訓練而優化的新款超級計算機。目前該公司神經網絡有在處理來自超過百萬輛汽車的大量視頻數據,但研究團隊顯然並不滿足於現有的硬件選項。事實上,過去幾年裡

2023-12-08

據媒體周四(12月7日)報道,知情人士透露,特斯拉公司Dojo超級計算機的項目負責人GaneshVenkataramanan已經於11月份離職。在過去五年中,Venkataramanan一直在領導Dojo項目的推進工作,加入特斯拉前他在AMD擔任近15年的長期工程總監

2024-03-22

超級計算機,但他旗下公司與英偉達的關系卻日益緊密,特斯拉和xAI都在大規模采購英偉達的硬件產品。2023年11月,2023年11月,蘋果和迪士尼為抗議X平臺上增加的反猶和其他形式的仇恨言論,暫停廣告投放。面對是否跟進的問

2023-04-20

4月20日消息,特斯拉和前員工亞歷山大·亞茨科夫(AlexanderYatskov)的法律糾紛已經結束。此前,特斯拉指控亞茨科夫竊取與人工智能超級計算機Dojo相關的商業機密並提起訴訟。在周三提交的文件中,雙方共同宣佈達成和解,和解條

2022-10-03

特斯拉2022AIDay會議紀要,本次AI日主要展示人形機器人Optimus、自動駕駛研發進程、以及Dojo超算。特斯拉人形機器人亮相首次亮相,並做一個舞蹈動作。之後,該公司展示一些機器人做其他任務的視頻片段,比如撿箱子、澆水等

2023-04-20

周三美股盤後,特斯拉公佈第一季度業績,馬斯克等高管在隨後的財報電話會議上就一系列投資者關心的問題進行分享。財報顯示,盡管特斯拉一季度實現233.29億美元的營收,同比上升24%,高於市場預期的232.08億美元,但當季盈

2022-10-02

特斯拉AIDay上,馬斯克攜23位愛將閃亮登場。團隊構成裡,卡內基梅隆大學、斯坦福大學博士畢業的已司空見慣,擁有蘋果、谷歌、AMD數年工作經歷的也不在少數。值得一提的是,有2位女性頗受馬斯克器重,他們都在特斯拉工作

2022-10-01

進程。還是先緩緩,看看其它公司給出的年終獎是不是比特斯拉更豐厚。如果很難一下子做決定,不妨先來看看這場於北美時間 2022 年 9 月 30 日晚間,北京時間 10 月 1 日早上舉辦的特斯拉 2022 AI Day,深刻認知特斯拉公司業務和

2023-03-13

結構管理核心,主頻2.2GHz,並集成HBM2高帶寬內存。富嶽超算一共用近16萬顆A64FX處理器,總核心數量多達7630848個。去年11月,富士通就曾披露,將設計更先進的處理器,采用臺積電2nm工藝,預計2026年推出。現在,富士通官方宣佈