谷歌研究人員當地時間4月4日在線發表一篇論文,首次公佈用於訓練人工智能模型的超級計算機的技術細節,並宣稱該系統比英偉達的超算系統更快且功耗更低。谷歌新發表的這篇題為《TPUv4:用於機器學習的光學可重構超級計算機,硬件支持嵌入》的文章介紹谷歌自己設計的定制TPU芯片。谷歌目前90%以上的人工智能訓練工作都使用這些芯片。
谷歌稱已經將4000多個TPU芯片連接成一臺超級計算機,這些芯片通過協同來訓練模型。目前各傢科技公司都在競爭AI超算系統,以支撐起人工智能大模型的算力。谷歌的AI聊天機器人Bard正在奮力追趕OpenAI的ChatGPT,這意味著大量的數據已經無法存儲在單個芯片上。
谷歌表示,其AI超級計算機可以輕松地動態配置芯片之間的連接,有助於提升超級計算機的性能。“電路切換將能更輕松地繞過故障組件。”谷歌研究員Norm Jouppi和谷歌傑出工程師David Patterson寫道,“這種靈活性甚至允許我們改變超級計算機互連的拓撲結構以加速機器學習模型。”
谷歌在論文中表示,對於同等大小的系統,其TPU芯片比基於英偉達A100芯片的系統快1.7倍,能效高1.9倍。不過谷歌沒有將其第四代TPU芯片與英偉達目前最新版的旗艦人工智能GPU芯片H100進行比較,H100擁有800億個晶體管,並采用更新的N4(4納米)芯片制造工藝。
谷歌還暗示,該公司正在開發下一代的TPU,將與H100競爭,但沒有提供任何細節。
而英偉達也在試圖通過使用AI來改進芯片設計,從而開發性能更強的GPU芯片。上周,英偉達在一篇論文中展示這種新的被稱為的AutoDMP的芯片“宏佈局”技術,通過AI來優化晶體管的佈局。
根據此前市場分析數據,在AI大模型方面,英偉達的A100占據約95%的市場份額。針對谷歌是否已經全面轉向使用自研芯片來訓練人工智能模型,英偉達未予評論。不過一位英偉達方面技術人士告訴第一財經記者:“谷歌同時使用英偉達的芯片和谷歌自己的芯片,很多時候競爭與合作是並存的。”
雖然谷歌現在才公佈有關其超級計算機的詳細信息,但自2020年以來,谷歌一直在公司內部位於俄克拉荷馬州梅斯縣的數據中心接入超算系統。 谷歌表示,AI圖像生成公司Midjourney也使用該系統訓練其模型。
“谷歌一直都在嘗試擺脫英偉達芯片的統治,但是這並沒有說起來那麼容易。”Gartner芯片分析師盛陵海對第一財經記者表示,“英偉達也是做幾十年才能夠坐穩現在的行業地位,谷歌的TPU目前還是自用為主。”