當今的人工智能基礎設施主要依靠GPU加速服務器的擴展來推動,其中的主要玩傢Google指出,根據其GoogleCloudServices雲計算體系內部分析的記錄,CPU仍然是人工智能/ML工作負載的主要計算設備。在TechFieldDay活動期間,Google雲產品經理BrandonRoyal的演講解釋CPU在當今人工智能遊戲中的地位。
人工智能的生命周期分為兩個部分:訓練和推理。在訓練過程中,需要大量的計算能力和巨大的內存容量,以便將不斷擴大的人工智能模型裝入內存。最新的模型,如 GPT-4 和 Gemini,包含數十億個參數,需要數千個 GPU 或其他加速器並行工作,才能高效地進行訓練。
另一方面,推理所需的計算強度較低,但仍能從加速中獲益。在推理過程中,會對預先訓練好的模型進行優化和部署,以便對新數據進行預測。雖然推理所需的計算量比訓練少,但延遲和吞吐量對實時推理至關重要。Google發現,雖然 GPU 是訓練階段的理想選擇,但模型通常在 CPU 上進行優化和推理。這意味著,有些客戶出於各種原因選擇 CPU 作為人工智能推理的媒介。
這可能是成本和可用性的問題。與高端 GPU 或專門的人工智能加速器相比,CPU 往往更便宜,也更容易獲得。對於許多應用而言,CPU 能以較低的成本提供足夠的推理性能。CPU 還具有靈活性。由於大多數系統已經配備 CPU,它們為較小的人工智能模型提供便捷的部署途徑。GPU 通常需要專門的庫和驅動程序,而基於 CPU 的推理可以利用現有的基礎設施。這使得將人工智能集成到現有產品和工作流程中變得更加簡單。延遲和吞吐量的權衡也會發揮作用。GPU 擅長大規模並行推理吞吐量。但 CPU 通常可以為實時請求提供更低的延遲。對於需要亞秒級響應的在線推薦等應用,CPU 推理可能是首選。
此外,CPU 對推理的優化進展迅速。在更快的時鐘、更多的內核以及英特爾 AVX-512 和 AMX 等新指令的推動下,性能不斷提高,僅靠 CPU 就能流暢運行人工智能工作負載,如果服務器配置不止一個插槽,意味著有更多的人工智能引擎存在,服務器就能高效處理數十億參數大小的人工智能模型,則性能尤其出色。英特爾指出,一般來說,參數不超過200 億的模型在 CPU 上可以正常運行,而更大的模型則必須使用專門的加速器。
像 GPT-4、Claude 和 Gemini 這樣的人工智能模型都是龐大的模型,參數規模可達一萬億以上。然而,它們是多模式的,也就是說,它們處理文本和視頻。現實世界中的企業工作負載可能是一個人工智能模型推斷公司的本地文檔,以回答客戶支持問題。對於這種解決方案來說,運行 GPT-4 這樣的模型就顯得多餘。相比之下,像LLAMA 2或 Mistral 這樣小得多的模型可以很好地實現類似目的,而不需要第三方 API 訪問,隻需在本地或雲服務器上運行幾個 CPU 即可。這就降低總體擁有成本(TCO),簡化人工智能管道。