Google:引領AI推理工作量的是CPU而非GPU


當今的人工智能基礎設施主要依靠GPU加速服務器的擴展來推動,其中的主要玩傢Google指出,根據其GoogleCloudServices雲計算體系內部分析的記錄,CPU仍然是人工智能/ML工作負載的主要計算設備。在TechFieldDay活動期間,Google雲產品經理BrandonRoyal的演講解釋CPU在當今人工智能遊戲中的地位。

人工智能的生命周期分為兩個部分:訓練和推理。在訓練過程中,需要大量的計算能力和巨大的內存容量,以便將不斷擴大的人工智能模型裝入內存。最新的模型,如 GPT-4 和 Gemini,包含數十億個參數,需要數千個 GPU 或其他加速器並行工作,才能高效地進行訓練。

另一方面,推理所需的計算強度較低,但仍能從加速中獲益。在推理過程中,會對預先訓練好的模型進行優化和部署,以便對新數據進行預測。雖然推理所需的計算量比訓練少,但延遲和吞吐量對實時推理至關重要。Google發現,雖然 GPU 是訓練階段的理想選擇,但模型通常在 CPU 上進行優化和推理。這意味著,有些客戶出於各種原因選擇 CPU 作為人工智能推理的媒介。

oY6Nc6wOdL3U5qLZ.jpg

這可能是成本和可用性的問題。與高端 GPU 或專門的人工智能加速器相比,CPU 往往更便宜,也更容易獲得。對於許多應用而言,CPU 能以較低的成本提供足夠的推理性能。CPU 還具有靈活性。由於大多數系統已經配備 CPU,它們為較小的人工智能模型提供便捷的部署途徑。GPU 通常需要專門的庫和驅動程序,而基於 CPU 的推理可以利用現有的基礎設施。這使得將人工智能集成到現有產品和工作流程中變得更加簡單。延遲和吞吐量的權衡也會發揮作用。GPU 擅長大規模並行推理吞吐量。但 CPU 通常可以為實時請求提供更低的延遲。對於需要亞秒級響應的在線推薦等應用,CPU 推理可能是首選。

me8O4Zdu3jFcg8ry.jpg

此外,CPU 對推理的優化進展迅速。在更快的時鐘、更多的內核以及英特爾 AVX-512 和 AMX 等新指令的推動下,性能不斷提高,僅靠 CPU 就能流暢運行人工智能工作負載,如果服務器配置不止一個插槽,意味著有更多的人工智能引擎存在,服務器就能高效處理數十億參數大小的人工智能模型,則性能尤其出色。英特爾指出,一般來說,參數不超過200 億的模型在 CPU 上可以正常運行,而更大的模型則必須使用專門的加速器。

像 GPT-4、Claude 和 Gemini 這樣的人工智能模型都是龐大的模型,參數規模可達一萬億以上。然而,它們是多模式的,也就是說,它們處理文本和視頻。現實世界中的企業工作負載可能是一個人工智能模型推斷公司的本地文檔,以回答客戶支持問題。對於這種解決方案來說,運行 GPT-4 這樣的模型就顯得多餘。相比之下,像LLAMA 2或 Mistral 這樣小得多的模型可以很好地實現類似目的,而不需要第三方 API 訪問,隻需在本地或雲服務器上運行幾個 CPU 即可。這就降低總體擁有成本(TCO),簡化人工智能管道。


相關推薦

2023-05-11

在組建GPU大軍,以提供更多的AI火力。在今天舉行的年度GoogleI/O開發者大會上,Google宣佈一款擁有26,000個GPU的AI超級計算機——A3,這個超級計算機是Google與微軟爭奪AI霸權的鬥爭中投入更多資源進行積極反攻的又一證據。這臺超

2024-03-25

ed]業界預計,將采用Blackwell系列芯片的公司包括亞馬遜、Google、Meta、微軟、OpenAI、特斯拉和xAI。黃仁勛透露,新GPU的價格為3萬到4萬美元,這無疑將進一步推動英偉達的營收。英偉達還推出NIM(英偉達推理微服務),提供從應用

2023-03-22

速一致性芯片到芯片接口連接英偉達Grace CPU和Hopper GPU。Google雲是第一個向客戶提供英偉達L4推理GPU的雲服務提供商。Google還將L4集成到其Vertex AI模型商店中。3、雲服務:登瀏覽器即可訪問AI超級計算機英偉達推出一項名為DGX Cloud

2024-03-21

度。GB200還將在NVIDIA DGX雲上提供給客戶,這是一個與AWS、Google雲和甲骨文雲等領先的雲服務提供商共同設計的AI平臺,為企業開發者提供專用訪問權限,以構建和部署先進的生成式AI模型所需的基礎設施和軟件。英偉達以實際的

2024-04-09

式決定。在比特幣之父中本聰的設計中,比特幣系統通過工作量證明(Proof-of-Work)的方式,讓礦工們競相計算出一個足夠困難的哈希值(由數字+字母構成的字符串)來創建新的區塊並獲取獎勵。這種競爭性的計算過程,需要消

2024-03-19

,GPT-4 的參數模型約為 1.7 萬億。該公司表示,亞馬遜、Google、微軟和甲骨文都已計劃在其雲服務產品中提供 NVL72 機架,但不清楚它們將購買多少。當然,NVIDIA 也樂於為公司提供其他解決方案。下面是用於 DGX GB200 的 DGX Superpod

2023-11-14

達自己投資的CoreWeave、Lambda和Vultr之外,亞馬遜雲科技、Google雲、微軟Azure和甲骨文雲基礎設施,都將成為首批部署基於H200實例的供應商。此外,在新的H200加持之下,GH200超級芯片也將為全球各地的超級計算中心提供總計約200 Exa

2024-03-19

flops的FP4計算能力,這是由其2080億個晶體管提供的。高效推理:當與Grace CPU結合形成GB200超級芯片時,它能在LLM推理工作負載上提供比單個GPU高出30倍的性能,同時在成本和能源消耗上比H100 GPU高出25倍。訓練能力:使用Blackwell GPU

2024-02-21

一體AI芯片公司Groq便是最新贏傢。這傢創企自稱其自研AI推理引擎LPU做到“世界最快推理”,由於其超酷的大模型速度演示、遠低於GPU的token成本,這顆AI芯片最近討論度暴漲。連原阿裡副總裁賈揚清都公開算賬,分析LPU和H100跑

2024-03-30

可能會加劇供應鏈問題並導致成本上升。英特爾CPU在許多推理場景中都能很好地運行。而這也正與當下大模型的發展趨勢變化相契合,即逐漸從訓練向推理傾斜,大模型不再僅僅較真於參數規模、跑分和測評,更註重在應用側發

2024-02-22

美國人工智能初創公司Groq最新推出的面向雲端大模型的推理芯片引發業內的廣泛關註。其最具特色之處在於,采用全新的TensorStreamingArchitecture(TSA)架構,以及擁有超高帶寬的SRAM,從而使得其對於大模型的推理速度提高10倍以上,

2024-03-20

ron框架中的先進動態范圍管理算法,從而在新型4位浮點AI推理能力下實現算力和模型大小的翻倍。其他還有RAS可靠性專用引擎、安全AI、解壓縮引擎等。至於功耗,B100控制在700W,和上代H100完全一致,B200則首次達到1000W。NVIDIA宣

2024-02-22

行業,全球各行各業對英偉達AI芯片——即用於AI訓練與推理領域的A100/H100芯片需求激增,使得該科技巨頭繼之前三個季度之後,又一次發佈令全球震驚的強勁無比業績數據。在截至1月28日的2024財年第四季度,英偉達總營收規模

2024-02-22

個深夜炸彈。2月21日,在與閉源的OpenAI打得火熱的同時,Google突然加入開源的戰局。北京時間夜間Google突然宣佈,開源一個新的模型系列Gemma,這個模型使用與它最強的Gemini同源的技術,並且在一系列的標準測試上秒殺幾款今天