OpenAI的瘋狂“星際之門”數據中心將基於什麼芯片技術？

2024-04-02 來自半導體行業觀察發表於業界精選

《TheInformation》在上周五復活節假期開始時報道有關微軟和OpenAI合作的Stargate（星際之門）的報道，該報告與超以太網聯盟（微軟是其創始成員）設定的100萬個互連端點的可擴展性未來以太網目標一致。

星際之門系統也從此引起人們的議論。 Altman 似乎無法決定 OpenAI 是否應該完全依賴微軟，但誰能責怪他呢？這就是為什麼還有傳言稱OpenAI 正在設計自己的用於人工智能訓練和推理的芯片，以及關於Altman試圖帶頭投資 7 萬億美元芯片制造但隨後又放棄的令人憤慨的評論。

你不能責怪Altman亂扔他正在盯著的大數字。訓練人工智能模型非常昂貴，並且運行推理——主要是生成tokern——也不便宜。正如 NVIDIA 聯合創始人兼首席執行官黃仁勛最近在 GTC 2024 會議上的主題演講中指出的那樣——他們是不可持續的昂貴。這就是 Microsoft、Amazon Web Services、Google 和 Meta Platform 已經創建或正在創建自己的 CPU 和 XPU 的原因。

隨著參數數量的增加以及數據從文本格式轉變為其他格式，如果目前的趨勢持續下去並且鐵可以擴展，那麼LLM隻會變得越來越大——在未來幾年內將增長 100 倍到 1,000 倍。

因此，我們聽到有關《星際之門》的討論，這表明人工智能訓練的上層毫無疑問是富人的遊戲。

根據您在最初的《星際之門》傳聞後的報告中所讀到的內容，《星際之門》是一個項目的第五階段，該項目將耗資 1000 億至 1150 億美元，星際之門將於 2028 年交付，並在 2030 年及以後運營。微軟目前顯然正處於擴建的第三階段。據推測，這些資金數字涵蓋機器的所有五個階段，目前尚不清楚該數字是否涵蓋數據中心、內部機械以及電力成本。微軟和 OpenAI 可能不會采取太多行動來解決這個問題。

目前還沒有討論 Stargate 系統將基於什麼技術，但我們認為它不會基於 NVIDIA GPU 和互連。它將基於未來幾代的 Cobalt Arm 服務器處理器和 Maia XPU，以太網可擴展到單臺機器中數十萬到 100 萬個 XPU。

我們還認為，微軟收購 DPU 制造商 Fungible 來創建可擴展的以太網網絡，並且可能讓Juniper Networks 和 Fungible 的創始人Pradeep Sindhu創建匹配的以太網交換機 ASIC，以便微軟可以控制其整個硬件堆棧。

當然，這隻是一個猜想。

無論 Microsoft 使用哪種以太網網絡，我們都相當確定在某個時候 100 萬個端點是目標，而我們也相當確定 InfiniBand 不是答案。

我們還認為，假設的這款 XPU 將與未來的 NVIDIA X100/X200 GPU 或其後繼產品（我們不知道其名稱）一樣強大是不太可能的。微軟和 OpenAI 更有可能嘗試大規模擴展更便宜的設備網絡，並從根本上降低人工智能訓練和推理的總體成本。

他們的商業模式取決於這種情況的發生。

而且我們還可以合理地假設，在某個時候 NVIDIA 將不得不創建一個擠滿矩陣數學單元的 XPU，並舍棄讓該公司在數據中心計算領域起步的矢量和著色器單元。如果微軟為 OpenAI 打造一個更好的mousetrap，那麼 NVIDIA 將不得不效仿。

Stargate 肯定代表人工智能支出的階梯函數，也許還有兩個階梯函數，具體取決於你想要如何解釋數據。

在數據中心預算方面，微軟迄今為止公開表示的全部內容是，它將在 2024 年和 2025 年在數據中心上花費超過 100 億美元，我們推測其中大部分支出用於支付 AI 服務器的成本。那些 1000 億美元或 1150 億美元的數字太模糊，無法代表任何具體內容，因此目前這隻是一些大話。我們要提醒您的是，在過去的十年中，微軟至少保留 1000 億美元的現金和等價物，並在 2023 年 9 月的季度達到接近 1440 億美元的峰值。截至 2023 日歷年（微軟 2024 財年第二季度），該數字下降至 810 億美元。

因此，微軟現在沒有足夠的資金來一次性完成 Stargate 項目，但其軟件和雲業務在過去 12 個月的銷售額總計達到 825 億美元，而銷售額約為 2276 億美元。未來六年，如果軟件和雲業務保持原樣，微軟將帶來 1.37 萬億美元的收入，凈利潤約為 5000 億美元。它可以承擔星際之門的努力。微軟也有能力購買 OpenAI，然後就可以結束它。

不管怎樣，我們為微軟可能已經構建的集群以及未來可能為 OpenAI 構建的集群制定預算，展示它們的組成和規模如何隨著時間的推移而變化。看一下：

我們認為，隨著時間的推移，分配給 OpenAI 的 AI 集群數量將會減少，而這些集群的規模將會增加。

我們還認為 OpenAI 集群中 GPU 的份額將會下降，而 XPU 的份額（很可能在 Maia 系列中，但也可能使用 OpenAI 設計）將會上升。隨著時間的推移，自研XPU 的數量將與 GPU 的數量相匹配，我們進一步估計這些 XPU 的成本將不到數據中心 GPU 成本的一半。此外，我們認為從 InfiniBand 轉向以太網也將降低成本，特別是如果微軟使用自主研發的以太網 ASIC 和內置人工智能功能和集體操作功能的自主研發的 NIC。（就像 NVIDIA 的 InfiniBand 的 SHARP 功能一樣。）

我們還強制采用支出模型，以便在 2028 年有兩個擁有 100 萬個端點的集群——一個由 GPU 組成，一個由自研 XPU 組成，或者兩個集群各占一半。我們想要估計未來的集群性能，但這很難做到。每年可能會有更多的 XPU 獲得適度的性能提升，但性價比卻要高得多。

需要記住的是，微軟可以保留當前一代的 GPU 或 XPU 供 OpenAI 內部使用（因此也是其自己的），並在未來許多年內向用戶出售N-1和N-2代，很可能會獲得很多收益其投資誘餌再次回到 OpenAI 上。因此，這些投資本身並不是沉沒成本。這更像是一個汽車經銷商駕駛著一大堆掛有經銷商牌照的不同汽車，但在出售它們之前並沒有將裡程數提高得太高。

問題是：微軟會繼續在 OpenAI 上投入巨資，以便扭虧為盈並租用這些產能嗎，還是會停止在 OpenAI 上花費 1000 億美元（兩個月前該公司的估值為 800 億美元）？另外還要花費 1100 億美元左右的基礎設施建設，以完全控制其人工智能堆棧。

即使對於微軟來說，這些數字也是相當大的。但是，正如我們所說，如果你看看 2024 年至 2028 年，微軟可能有大約 5000 億美元的凈利潤可供使用。很少有其他公司這樣做。

微軟從一個 BASIC 編譯器和一個從第三方拼湊出來的垃圾 DOS 操作系統開始，為一個不理解它的絕望的藍色巨人做裝飾，這簡直是在放棄糖果店。

也許這也是奧特曼的噩夢。但考慮到將人工智能推向新的高度需要巨額資金，現在可能為時已晚。

OpenAI的瘋狂“星際之門”數據中心將基於什麼芯片技術？

相關推薦

微軟和OpenAI正在打造名為"星際之門"的新型AI超級計算機

微軟、OpenAI千億美元算力建設項目曝光還有一個彩蛋

DeepMind CEO：谷歌將在人工智能上投入超過1000億美元

微軟聘請前Meta高管以加強人工智能超級計算團隊

OpenAI 宣佈將讓人們無需註冊賬戶即可免費使用 ChatGPT

ChatGPT悄悄變懶 OpenAI還能加速跑嗎？

AI訓練一次把我傢這輩子的電都用完…

英偉達如何崛起為AI霸主？黃仁勛捕捉機遇能力太強

NVIDIA準備將基於Arm的Grace CPU作為獨立的企業級產品發佈

奧特曼的芯片計劃 7萬億美元融資反而是最容易的部分

所有人都想知道蘋果如何“AI化”？答案出來：Siri！

裁員內幕：特斯拉的瘋狂一周馬斯克“意外拍板”引發戰略大轉向

ChatGPT登上《時代》封面！這場競賽OpenAI賭贏

OpenAI內幕文件驚人曝出：Q*疑能破解加密 AI背著人類在編程