微軟將數萬顆芯片串聯成一臺價格不菲的超級計算機用於OpenAI


當微軟公司於2019年向OpenAI投資10億美元時,它同意為這傢人工智能研究初創公司建造一臺大規模的尖端超級計算機。唯一的問題是:微軟沒有像OpenAI所需要的設施,也不完全確定它能在其Azure雲服務中建造這麼大的東西而不至於導致整體崩潰。

1000x-1.jpg

OpenAI試圖訓練一套越來越大的被稱為模型的人工智能程序,這些程序正在吸收更多的數據,並學習越來越多的參數,即人工智能系統通過訓練和再訓練而發現的變量。這意味著OpenAI需要長期使用強大的雲計算服務。

為應對這一挑戰,微軟不得不想方設法將數以萬計的英偉達的A100圖形芯片--訓練人工智能模型的主力--串聯起來,並改變其在機架上放置服務器的方式以防止斷電。負責雲計算和人工智能的微軟執行副總裁Scott Guthrie不願透露該項目的具體成本,但他說"可能會大於"幾億美元。

這項技術讓OpenAI發佈ChatGPT,這一具有強大語言天賦的聊天機器人在11月上市後幾天內就吸引100多萬用戶,現在正被拉入其他公司的商業模式,從億萬富翁對沖基金創始人Ken Griffin經營的公司到食品配送服務Instacart Inc. 隨著ChatGPT等生成型人工智能工具獲得企業和消費者的興趣,微軟、亞馬遜公司和Alphabet公司旗下的Google等雲服務提供商將面臨更多壓力,以確保其數據中心能夠提供所需的巨大計算能力。

現在,微軟使用它為OpenAI建立的同一套資源來訓練和運行自己的大型人工智能模型,包括上個月推出的新的Bing搜索機器人。它還將該系統出售給其他客戶。這傢軟件巨頭已經開始著手開發下一代人工智能超級計算機,這是微軟與OpenAI擴大交易的一部分,微軟在其中增加100億美元的投資。

訓練一個大規模的人工智能模型需要像微軟組裝的人工智能超級計算機那樣,在一個地方有一個大型的連接圖形處理單元池。一旦一個模型投入使用,回答用戶提出的所有查詢--稱為推理--需要一個稍微不同的設置。微軟也部署用於推理的圖形芯片,但這些處理器--數十萬個--在地理上分散在該公司60多個地區的數據中心中。 現在,該公司正在為人工智能工作負載添加最新的NVIDIA圖形芯片--H100--和NVIDIA最新版本的Infiniband網絡技術,以更快地分享數據,微軟周一在一篇博文中說。

新的必應仍處於預覽階段,微軟正在逐步從等待名單中增加更多的用戶。微軟的AI團隊每天與大約二十幾名員工舉行會議,他們被稱為"維修人員",因為他們是在比賽中調整賽車的機械師。該小組的工作是弄清楚如何快速上線更多的計算能力,以及解決出現的問題。

雲服務依賴於數以千計的不同部件和物品--服務器、管道、建築物的混凝土、不同的金屬和礦物等各個部分--任何一個部件的延遲或短缺,無論多麼微小,都會使一切都中斷。最近,維修人員不得不處理電纜托架的短缺問題--這種籃子一樣的裝置用來放置機器上的電纜。所以他們設計一種新的電纜盤,微軟可以自己生產或找地方購買。他們還在研究如何在世界各地現有的數據中心中盡可能多地壓縮服務器,這樣他們就不必等待新的建築完工。

當OpenAI或微軟正在訓練一個大型的人工智能模型時,工作在一個時間段內發生,它被分到所有的GPU上,在某些時候,這些單元之間需要相互交談,以分享它們所做的工作。對於人工智能超級計算機,微軟必須確保處理所有芯片之間通信的網絡設備能夠處理這種負載,而且它必須開發軟件,使GPU和網絡設備得到最佳利用。該公司現在已經提出一個軟件,可以讓它訓練具有幾十萬億個參數的模型。

因為所有的機器都是一次性啟動的,所以微軟必須考慮到它們的放置位置和電源的位置,否則你就會出現像在廚房裡同時打開微波爐、烤面包機和吸塵器一樣的過載問題。

Azure全球基礎設施總監Alistair Speirs說,該公司還必須確保它能夠冷卻所有這些機器和芯片,在較涼爽的氣候下使用外部空氣,在炎熱的氣候下使用更高技術的冷卻裝置。

微軟將繼續研究定制的服務器和芯片設計以及優化其供應鏈的方法,以獲得任何速度上的提高、效率和成本上的節省。


相關推薦

2023-05-11

6,000個GPU的AI超級計算機——A3,這個超級計算機是Google與微軟爭奪AI霸權的鬥爭中投入更多資源進行積極反攻的又一證據。這臺超級計算機擁有大約 26,000 個 NVIDIA H100 Hopper GPU。作為參考,世界上最快的公共超級計算機Frontier擁有

2024-04-23

前Meta高管傑森-泰勒(JasonTaylor)將加入微軟的人工智能超級計算團隊。微軟首席技術官凱文-斯科特(KevinScott)周一在LinkedIn上發文稱,泰勒將擔任公司副總裁兼副首席技術官,幫助"構建下一套系統,推動人工智能的

2024-05-26

2023年7月創辦xAI,公司員工大多來自OpenAI、谷歌DeepMind、微軟、特斯拉等巨頭。去年11月,xAI宣佈推出Grok-1模型。

2023-04-05

算機,硬件支持嵌入》的文章介紹谷歌自己設計的定制TPU芯片。谷歌目前90%以上的人工智能訓練工作都使用這些芯片。谷歌稱已經將4000多個TPU芯片連接成一臺超級計算機,這些芯片通過協同來訓練模型。目前各傢科技公司都在

2024-03-20

今年晚些時候陸續上市,亞馬遜雲、戴爾、谷歌、Meta、微軟、OpenAI、甲骨文、特斯拉、xAI等都會采納。亞馬遜雲、谷歌雲、微軟Azeure、甲骨文雲將是首批提供Blackwell GPU驅動實例的雲服務提供商,NVIDIA雲合作夥伴計劃的中的Applied

2023-04-05

用於訓練人工智能模型的超級計算機,稱其比英偉達A100芯片的系統更快、更節能。谷歌公司設計自己的定制芯片,稱為TensorProcessingUnit(TPU),並將這些芯片應用於90%以上的人工智能訓練工作。這個過程通過模型對數據進行訓練,

2023-03-22

AI的‘iPhone時刻’已經到來”。據英偉達透露,OpenAI將在微軟Azure超級計算機上使用英偉達H100 GPU,AI文生圖明星創企Stability.ai是H100 GPU的早期訪問客戶。為加速生成式AI開發及部署,老黃宣佈推出3款全新推理GPU,分別擅長AI視頻、

2022-10-08

恥辱。這一時期,隨著國產電腦品牌不斷湧現,曾經動輒數萬元一臺的個人電腦價格已經跌到萬元之內,普及到尋常百姓傢,信息時代的大門正式向中國人敞開。7跨越新千年之後的二十年間,伴隨國力復蘇和科研佈局,中國超

2024-03-30

微軟和OpenAI已經建立緊密的合作關系。OpenAI利用微軟提供的大量資金繼續開發其生成式人工智能模型。反過來,微軟利用OpenAI的模型幫助開發自己的Copilot助手,並在其Azure雲服務中提供OpenAI的模型。今天,來自The Information 的一

2023-04-15

進行AI競賽的科技巨頭們不惜斥巨資購買AI芯片。例如,微軟就斥資數億美元購買數萬顆英偉達A100芯片,以幫助打造ChatGPT。另外,據媒體最新報道,“鋼鐵俠”埃隆·馬斯克在美國內華達州成立一傢名為X.AI的人工智能公司,旨在

2023-11-14

資的CoreWeave、Lambda和Vultr之外,亞馬遜雲科技、Google雲、微軟Azure和甲骨文雲基礎設施,都將成為首批部署基於H200實例的供應商。此外,在新的H200加持之下,GH200超級芯片也將為全球各地的超級計算中心提供總計約200 Exaflops的AI

2023-06-16

果不是因為運營成本太高,這對OpenAI來說將是一個勝利。微軟公司已承諾向OpenAI提供超過100億美元的資金,這將有助於後者支付不斷上漲的計算成本。而且,OpenAI CEO阿爾特曼還將需要英偉達提供更多芯片,以滿足需求。黃仁勛

2023-11-02

算機快10倍”。這臺計算機將搭載5448顆GH200 Grace Hopper超級芯片,這是美國半導體巨頭英偉達制造的強大人工智能芯片。此外,美國IT巨頭Hewlett Packard Enterprise將幫助建造這臺計算機,目標是最終將其與劍橋大學新近宣佈的名為Dawn

2024-03-30

球經濟大國、科技巨頭紛紛大力投資建設算力的背景下,微軟和OpenAI的數據中心投資計劃突然被曝光在世人眼前。根據知名科創媒體TheInformation周五報道,微軟、OpenAI正在進行一項分為五個階段的超級計算機建設項目,擬動用的