Cerebras打破在單個設備上訓練大規模AI模型的紀錄


作為世上最大加速器芯片CS-2WaferScaleEngine背後的公司,Cerebras剛又宣佈瞭另一個裡程碑——在單個設備上完成瞭目前最大的自然語言處理(NLP)人工智能模型的訓練。此前也有人嘗試在智能手表這樣的可穿戴設備設備上訓練AI模型,但Cerebras這次又將參數提升到瞭20億的量級。

0-1.png

Wafer Scale Engine-2 晶圓級芯片資料圖(來自:Cerebras)

本次演示使用瞭 OpenAI 的 120 億參數 DALL-E,且所有工作負載無需擴展到橫跨多個加速器的平臺上去完成,從而極大地降低瞭對基礎設施和軟件的復雜性要求。

0-2.jpg

不過需要指出的是,單個 CS-2 系統本身就已經可以媲美超算 —— 7nm 單晶圓(通常可容納數百枚主流芯片),擁有驚人的 2.6 萬億個晶體管、85 萬個內核、40GB 集成緩存,且封裝功耗高達 15kW 。

1.jpg

Cerebras 嘗試在單個芯片上保留多達 200 億個參數的 NLP 模型,以顯著降低數以千計的 GPU 訓練成本、擴展所需的相關硬件需求,並且消除瞭在它們之間劃分模型的技術難度。

2.jpg

Cerebras 指出,這也是常規 NLP 工作負載的痛點之一,有時動輒需要耗費數月時間才能完成。

3.jpg

由於高度定制,每個正在處理的神經網絡、GPU 規格、以及將它們聯系到一起的網絡,都是獨一無二的 —— 這些元素必須在初次訓練前就搞定,且無法做到跨系統移植。

4.jpg

至於 OpenAI 的 GPT-3 自然預覽處理模型,它有時已經能夠編寫出讓你誤以為是真人所撰寫的整篇文章,且具有 1750 億個驚人的參數。

5.jpg

不過 DeepMind 在 2021 年底推出的 Gopher,已將這個數字大幅提升到瞭 2800 億,且 Google Brain 甚至宣佈訓練瞭一個超萬億參數的 Switch Transformer 模型。

17.jpg

Cerebras 首席執行官兼聯合創始人 Andrew Feldman 表示:更大的 NLP 模型,意味著它的準確度也更高。

18.jpg

但通常隻有極少數公司擁有如此龐大的必要資源和專業知識,來分解這些大型模型、並將之分散到數百、或數千個 GPU 上去艱苦運算。

19.jpg

正因如此,我們隻看到過極少數公司能夠訓練大型 NLP 模型 —— 這對行業內的其他人來說過於昂貴、耗時、且難以使用。

20.jpg

今天,Cerebras 很自豪地宣佈普及瞭 GPT-3XL 1.3B、GPT-J 6B、GPT-3 13B 和 GPT-NeoX 20B,讓整個 AI 生態系統都能夠在幾分鐘內建立大型模型、並在單個 CS-2 平臺上展開訓練。

21.jpg

不過與 CPU 領域類似,主頻隻是衡量性能的其中一項指標。比如 Chinchilla 就嘗試通過使用更少的參數(700 億個),得出瞭較 GPT-3 和 Gopher 更好的結果。


相關推薦

2024-03-14

今天,芯片初創公司CerebrasSystems推出全新的WaferScaleEngine3,並將其現有的最快AI芯片世界紀錄加倍。據介紹,在相同的功耗和相同的價格下,WSE-3的性能是之前的記錄保持者CerebrasWSE-2的兩倍。基於 5nm 的4萬億晶體管WSE-3專為訓練業

2024-03-14

小設計時,而這傢公司卻反其道而行之。半導體初創公司CerebrasSystems公司周三(3月13日)推出一款新的芯片WSE-3,而它的尺寸卻類似晶圓大小,或者說比一本書還要大,單體面積達到約462.25平方厘米。它是目前最大GPU面積的56倍

2023-12-07

今天起,成為Bard的支柱。Gemini Nano是最高效的模型,用於設備端任務,可以在Android設備上本地和離線運行,Pixel 8 Pro的用戶就能馬上體驗到。其中,Nano-1的參數為1.8B,Nano-2為3.25B。Gemini最基本的模型能做到文本輸入和文本輸出,

2024-04-08

據就像是穿越叢林的路徑,如果這些公司隻是在合成數據上訓練,AI可能會在叢林裡迷失。

2023-10-16

;利用搭載深度脈動陣列的英特爾®Xe Matrix Extensions (XMX),在單個設備上加速 AI 工作負載,並啟用矢量和矩陣功能,極好地幫助企業找到算力與成本之間的平衡。2大模型的部署:除解決多場景,更重要的是提高效率戴金權對於“未

2023-04-05

鍵點,因為所謂的大規模語言模型正在不斷增大,已無法在單個芯片上存儲,而這些模型正驅動著谷歌的Bard或OpenAI的ChatGPT等技術。這類模型必須分佈在成千上萬的芯片之間,然後這些芯片要在數周或更長時間內協同工作來訓練

2023-12-07

今為止最靈活的模型,能夠高效地運行在數據中心和移動設備等多類型平臺上。Gemini 提供的 SOTA 能力將顯著增強開發人員和企業客戶構建和擴展 AI 的方式。目前,Gemini 1.0 提供三個不同的尺寸版本,分別如下:Gemini Ultra:規模

2023-02-25

持。Meta 還提及,LLaMA-13B對算力的要求“低得多”,可以在單個數據中心級GPU(NVIDIA Tesla V100)上運行。紮克伯格寫道:“Meta 致力於這種開放的研究模式,我們將向 AI 研究社區提供我們的新模型。”值得一提的是,去年5月,Meta

2024-02-21

Sutton著)[10:00am] 在Google Meet上開會,討論如何在更多數據上訓練更大的模型[11:00am] 敲代碼,在更多數據上訓練更大的模型。搭檔是Hyung Won Chung[12:00pm] 去食堂吃午飯(純素且無麩質)[1:00pm] 真正開始在大量數據上訓練大模型[2:00pm

2022-06-30

並渴望通過chiplet技術打破標線限制。今天,我們已經在 Cerebras 的大型晶圓級引擎處理器等產品中看到瞭其中的一些,並且通過大型小芯片,臺積電正準備讓更廣泛的客戶群更容易獲得更小的(但仍然是標線斷裂)設計。對性能

2024-02-26

水平,並正朝著GPT-4的方向努力追趕,這顯示出國內企業在單一文本處理領域的實力和進步速度。然而,在多模態模型研發方面,國內許多專註於大模型開發的公司可能尚未充分認識到多模態技術的重要性,沒有投入足夠的人力

2022-09-09

00參加MLPerf測試,並在所有工作負載中刷新世界紀錄。H100打破世界記錄,較A100性能提升4.5倍NVIDIA於今年3月份發佈基於新架構NVIDIA Hopper的H100 GPU,與兩年前推出的NVIDIA Ampere架構相比,實現數量級的性能飛躍。黃仁勛曾在 GTC 2022

2023-05-11

atGPT等預訓練大模型對算力需求極大,亟需Chiplet先進封裝打破摩爾定律的限制,並將加速數據中心的建設。進一步地,Chiplet及其3D封裝技術將極大加速單位面積下晶體管密度的提升,以滿足算力需求,因此帶來的高通量散熱需求

2023-03-20

本,在Github上發佈更多的代碼,可以在樹莓派上運行,並在單個高端nVidia RTX 4090顯卡上在5小時內完成訓練過程。這一切意味著什麼?現在可以建立無限數量的不受控制的語言模型--由具有機器學習知識、不在乎條款和條件或軟件