OpenAI的瘋狂“星際之門”數據中心將基於什麼芯片技術?


《TheInformation》在上周五復活節假期開始時報道有關微軟和OpenAI合作的Stargate(星際之門)的報道,該報告與超以太網聯盟(微軟是其創始成員)設定的100萬個互連端點的可擴展性未來以太網目標一致。

星際之門系統也從此引起人們的議論。 Altman 似乎無法決定 OpenAI 是否應該完全依賴微軟,但誰能責怪他呢?這就是為什麼還有傳言稱OpenAI 正在設計自己的用於人工智能訓練和推理的芯片,以及關於Altman試圖帶頭投資 7 萬億美元芯片制造但隨後又放棄的令人憤慨的評論。

你不能責怪Altman亂扔他正在盯著的大數字。訓練人工智能模型非常昂貴,並且運行推理——主要是生成tokern——也不便宜。正如 NVIDIA 聯合創始人兼首席執行官黃仁勛最近在 GTC 2024 會議上的主題演講中指出的那樣——他們是不可持續的昂貴。這就是 Microsoft、Amazon Web Services、Google 和 Meta Platform 已經創建或正在創建自己的 CPU 和 XPU 的原因。

隨著參數數量的增加以及數據從文本格式轉變為其他格式,如果目前的趨勢持續下去並且鐵可以擴展,那麼LLM隻會變得越來越大——在未來幾年內將增長 100 倍到 1,000 倍。

因此,我們聽到有關《星際之門》的討論,這表明人工智能訓練的上層毫無疑問是富人的遊戲。

根據您在最初的《星際之門》傳聞後的報告中所讀到的內容,《星際之門》是一個項目的第五階段,該項目將耗資 1000 億至 1150 億美元,星際之門將於 2028 年交付,並在 2030 年及以後運營。微軟目前顯然正處於擴建的第三階段。據推測,這些資金數字涵蓋機器的所有五個階段,目前尚不清楚該數字是否涵蓋數據中心、內部機械以及電力成本。微軟和 OpenAI 可能不會采取太多行動來解決這個問題。

目前還沒有討論 Stargate 系統將基於什麼技術,但我們認為它不會基於 NVIDIA GPU 和互連。它將基於未來幾代的 Cobalt Arm 服務器處理器和 Maia XPU,以太網可擴展到單臺機器中數十萬到 100 萬個 XPU。

我們還認為,微軟收購 DPU 制造商 Fungible 來創建可擴展的以太網網絡,並且可能讓Juniper Networks 和 Fungible 的創始人Pradeep Sindhu創建匹配的以太網交換機 ASIC,以便微軟可以控制其整個硬件堆棧。

當然,這隻是一個猜想。

無論 Microsoft 使用哪種以太網網絡,我們都相當確定在某個時候 100 萬個端點是目標,而我們也相當確定 InfiniBand 不是答案。

我們還認為,假設的這款 XPU 將與未來的 NVIDIA X100/X200 GPU 或其後繼產品(我們不知道其名稱)一樣強大是不太可能的。微軟和 OpenAI 更有可能嘗試大規模擴展更便宜的設備網絡,並從根本上降低人工智能訓練和推理的總體成本。

他們的商業模式取決於這種情況的發生。

而且我們還可以合理地假設,在某個時候 NVIDIA 將不得不創建一個擠滿矩陣數學單元的 XPU,並舍棄讓該公司在數據中心計算領域起步的矢量和著色器單元。如果微軟為 OpenAI 打造一個更好的mousetrap,那麼 NVIDIA 將不得不效仿。

Stargate 肯定代表人工智能支出的階梯函數,也許還有兩個階梯函數,具體取決於你想要如何解釋數據。

在數據中心預算方面,微軟迄今為止公開表示的全部內容是,它將在 2024 年和 2025 年在數據中心上花費超過 100 億美元,我們推測其中大部分支出用於支付 AI 服務器的成本。那些 1000 億美元或 1150 億美元的數字太模糊,無法代表任何具體內容,因此目前這隻是一些大話。我們要提醒您的是,在過去的十年中,微軟至少保留 1000 億美元的現金和等價物,並在 2023 年 9 月的季度達到接近 1440 億美元的峰值。截至 2023 日歷年(微軟 2024 財年第二季度),該數字下降至 810 億美元。

因此,微軟現在沒有足夠的資金來一次性完成 Stargate 項目,但其軟件和雲業務在過去 12 個月的銷售額總計達到 825 億美元,而銷售額約為 2276 億美元。未來六年,如果軟件和雲業務保持原樣,微軟將帶來 1.37 萬億美元的收入,凈利潤約為 5000 億美元。它可以承擔星際之門的努力。微軟也有能力購買 OpenAI,然後就可以結束它。

不管怎樣,我們為微軟可能已經構建的集群以及未來可能為 OpenAI 構建的集群制定預算,展示它們的組成和規模如何隨著時間的推移而變化。看一下:


我們認為,隨著時間的推移,分配給 OpenAI 的 AI 集群數量將會減少,而這些集群的規模將會增加。

我們還認為 OpenAI 集群中 GPU 的份額將會下降,而 XPU 的份額(很可能在 Maia 系列中,但也可能使用 OpenAI 設計)將會上升。隨著時間的推移,自研XPU 的數量將與 GPU 的數量相匹配,我們進一步估計這些 XPU 的成本將不到數據中心 GPU 成本的一半。此外,我們認為從 InfiniBand 轉向以太網也將降低成本,特別是如果微軟使用自主研發的以太網 ASIC 和內置人工智能功能和集體操作功能的自主研發的 NIC。 (就像 NVIDIA 的 InfiniBand 的 SHARP 功能一樣。)

我們還強制采用支出模型,以便在 2028 年有兩個擁有 100 萬個端點的集群——一個由 GPU 組成,一個由自研 XPU 組成,或者兩個集群各占一半。我們想要估計未來的集群性能,但這很難做到。每年可能會有更多的 XPU 獲得適度的性能提升,但性價比卻要高得多。

需要記住的是,微軟可以保留當前一代的 GPU 或 XPU 供 OpenAI 內部使用(因此也是其自己的),並在未來許多年內向用戶出售N-1和N-2代,很可能會獲得很多收益其投資誘餌再次回到 OpenAI 上。因此,這些投資本身並不是沉沒成本。這更像是一個汽車經銷商駕駛著一大堆掛有經銷商牌照的不同汽車,但在出售它們之前並沒有將裡程數提高得太高。

問題是:微軟會繼續在 OpenAI 上投入巨資,以便扭虧為盈並租用這些產能嗎,還是會停止在 OpenAI 上花費 1000 億美元(兩個月前該公司的估值為 800 億美元)?另外還要花費 1100 億美元左右的基礎設施建設,以完全控制其人工智能堆棧。

即使對於微軟來說,這些數字也是相當大的。但是,正如我們所說,如果你看看 2024 年至 2028 年,微軟可能有大約 5000 億美元的凈利潤可供使用。很少有其他公司這樣做。

微軟從一個 BASIC 編譯器和一個從第三方拼湊出來的垃圾 DOS 操作系統開始,為一個不理解它的絕望的藍色巨人做裝飾,這簡直是在放棄糖果店。

也許這也是奧特曼的噩夢。但考慮到將人工智能推向新的高度需要巨額資金,現在可能為時已晚。


相關推薦

2024-03-30

微軟和OpenAI已經建立緊密的合作關系。OpenAI利用微軟提供的大量資金繼續開發其生成式人工智能模型。反過來,微軟利用OpenAI的模型幫助開發自己的Copilot助手,並在其Azure雲服務中提供OpenAI的模型。今天,來自The Information 的一

2024-03-30

大國、科技巨頭紛紛大力投資建設算力的背景下,微軟和OpenAI的數據中心投資計劃突然被曝光在世人眼前。根據知名科創媒體TheInformation周五報道,微軟、OpenAI正在進行一項分為五個階段的超級計算機建設項目,擬動用的投資將

2024-04-16

們也頻頻被曝出各自新的AI投資計劃。其中,微軟計劃與OpenAI合作建造一臺名為“星際之門”的AI超級計算機,預計耗資1000億美元,是目前最大數據中心成本的100倍。亞馬遜正計劃在未來15年內“狂砸”1500億美元用於全球數據中

2024-04-23

主席,該組織致力於促進數據中心的開源設計。微軟和 OpenAI 需要更強大的硬件來跟上快速發展的人工智能系統。上個月,《The Information》的一篇報道稱,微軟和 OpenAI 希望建造一臺價值 1000 億美元的超級計算機(被稱為"星

2024-04-02

自2022年底首次向公眾推出以來,OpenAI一直要求想要訪問該聊天機器人的用戶註冊OpenAI賬戶。今天,該公司透露將向所有人免費開放ChatGPT,無需創建賬戶。OpenAI在今天的一篇博文中表示,它將"逐步"推出這一新

2024-04-08

無論是公開場合還是媒體爆料,盡管OpenAI創始人SamAltman已多次劇透GPT-5的相關消息,但與這位創始人浮出水面的硬件、算力等野心相比,眼下最棘手的問題是—ChatGPT的一群忠實用戶們,正在發現GPT-4正在變得越來越“懶”。所謂

2023-11-04

電,足足是前者的三倍。甚至有人做過這樣一個類比, OpenAI 每訓練一次,就相當於 3000 輛特斯拉同時跑 32 公裡……這還隻是 AI 前期訓練用的電,在後期使用過程中累積的耗電量才是大頭。一般來說,訓練就是不斷調整參數、

2024-03-01

藏的實力有望在關鍵時刻發揮作用。特別值得註意的是,OpenAI的競爭對手Anthropic獲得亞馬遜AWS的重大投資,此舉同樣備受矚目。作為協議的一部分,Anthropic將在亞馬遜的芯片上運行其下一代模型,即GPT-4或GPT-5的潛在競爭者。這

2023-12-01

結合GraceCPU和HopperGPU芯片,可以充分利用整個人工智能和數據中心生態系統。NVIDIA希望通過將CPU+GPU整合到單一設計中,為客戶提供一整套方案,以專註於行業中不同類型的工作負載。Grace采用的是雙芯片封裝,有GPU+CPU和純CPU兩種

2024-02-15

億美元的資金,以增加全球半導體芯片的供應。看上去,OpenAI距離AGI(通用人工智能)隻差AI算力。但就像《華爾街日報》一篇報道的標題,籌集數萬億美元可能是 Altman 芯片計劃裡最容易的部分。毋庸置疑,芯片制造是比金錢

2024-05-11

是一次回答一個問題。另據媒體最新報道稱,蘋果已經與OpenAI達成協議,會在iOS 18中使用其技術,以升級Siri的對話體驗,由生成式AI驅動的新版Siri將在WWDC上亮相。蘋果已經與OpenAI已經達成協議,在iOS 18中引入ChatGPT技術媒體援引

2024-05-11

5月11日消息,在今年2月,特斯拉內部召開一系列會議,埃隆·馬斯克(ElonMusk)突然要求加快無人駕駛出租車Robotaxi的研發進度,並意外地宣佈取消正在開發中的25,000美元經濟型電動車Model2。盡管Model2的開發進度比Robotaxi領先一年

2023-02-25

階段。Google先後發佈文本圖像生成模型Imgen、Parti 、Muse;OpenAI更新自傢的Dall-E 2;Meta的文本生成視頻模型Make-a-Video等。而ChatGPT誕生,讓人們對人工智能的瘋狂又回到2016年AlphaGo完勝李世石那一天。這種狂熱讓那些在人工智能領域

2023-11-28

OpenAI員工曾在Altman被解雇的前一天發帖:AI正在自己編程!這一帖子被挖出後,更多內幕文件被曝出,表示Q*已經破解加密,AGI即將到來。Q*項目,又傳出炸裂消息——在人類看不見的角落裡,AI竟然自己在偷偷編程?傳言稱,Q-St