Groq LPU人工智能推理芯片的運算表現可與主流廠商媲美


人工智能工作負載分為兩個不同的類別:訓練和推理。雖然訓練需要較大的計算和內存容量,訪問速度並非主要因素,推理則是另一回事。在推理中,人工智能模型必須以極快的速度運行,為最終用戶提供盡可能多的詞塊(單詞),從而更快地回答用戶的提示。

GIM002T0uFg0Zi35.jpg

一傢人工智能芯片初創公司 Groq 曾長期默默無聞,但現在它利用專為大型語言模型(LLM)(如 GPT、Llama 和 Mistral LLM)設計的語言處理單元(LPU),在提供超快推理速度方面取得重大進展。

Groq LPU 是基於張量流處理器(TSP)架構的單核單元,在 INT8 時可達到 750 TOPS,在 FP16 時可達到 188 TeraFLOPS,具有 320x320 融合點乘矩陣乘法,此外還有 5120 個矢量 ALU。

Groq LPU 擁有 80 TB/s 的帶寬,並具有大規模並發能力,其本地 SRAM 容量為 230 MB。所有這些共同作用,為 Groq 提供出色的性能,在過去幾天的互聯網上掀起波瀾。

在Mixtral 8x7B 模型中,Groq LPU 的推理速度為每秒 480 個令牌,在業內處於領先地位。在 Llama 2 70B 等上下文長度為 4096 個令牌的模型中,Groq 每秒可提供 300 個令牌,而在上下文長度為 2048 個令牌的較小 Llama 2 7B 中,Groq LPU 每秒可輸出 750 個令牌。

ipaNs8yp3hzZHnQb.jpgO57cd3j3dfZFWVrd.jpg

根據LLMPerf Leaderboard 的數據,Groq LPU 在推斷 LLMs Llama 時擊敗基於 GPU 的雲提供商,其配置參數從 70 億到 700 億不等。在令牌吞吐量(輸出)和到第一個令牌的時間(延遲)方面,Groq處於領先地位,實現最高的吞吐量和第二低的延遲。

ChatGPT 采用 GPT-3.5 免費版,每秒可輸出約 40 個令牌。目前的開源 LLM(如 Mixtral 8x7B)可以在大多數基準測試中擊敗 GPT 3.5,現在這些開源 LLM 的運行速度幾乎可以達到 500 令牌每秒。隨著像 Groq 的 LPU 這樣的快速推理芯片開始普及,等待聊天機器人回應的日子似乎開始慢慢消失。

yaHWXD6w3xW62RH0.jpg

這傢人工智能初創公司直接威脅到英偉達(NVIDIA)、AMD 和英特爾提供的推理硬件,但業界是否願意采用 LPU 仍是個問題,您可以在這裡進行試用:

https://groq.com/


相關推薦

2024-02-21

一體AI芯片公司Groq便是最新贏傢。這傢創企自稱其自研AI推理引擎LPU做到“世界最快推理”,由於其超酷的大模型速度演示、遠低於GPU的token成本,這顆AI芯片最近討論度暴漲。連原阿裡副總裁賈揚清都公開算賬,分析LPU和H100跑

2024-02-22

美國人工智能初創公司Groq最新推出的面向雲端大模型的推理芯片引發業內的廣泛關註。其最具特色之處在於,采用全新的TensorStreamingArchitecture(TSA)架構,以及擁有超高帶寬的SRAM,從而使得其對於大模型的推理速度提高10倍以上,

2024-02-20

初創公司Groq,GoogleTPU團隊原班人馬,基於自研芯片推出推理加速方案。(註意不是馬斯克的Grok)據他們介紹,其推理速度相較於英偉達GPU提高10倍,成本卻降低到十分之一。換言之,任何一個大模型都可以部署實現。目前已經

2024-02-26

之一,且相較前一年下降46%,虧損達到2億美元。 2023年,人工智能浪潮爆發,英偉達業績再度暴漲。 H100一卡難求之時,Graphcore以為自己至少能撿到英偉達的漏,結果卻連湯都沒喝著。去年,Graphcore的創始人Nigel Toon向英國首相寫

2024-02-22

其總市值達到1.67萬億美元,投資者們押註該公司仍將是人工智能計算熱潮的最主要受益者。英偉達首席執行官黃仁勛表示:“GPU加速計算和生成人工智能可謂已經達到‘臨界點’。”“全球各公司、行業,乃至多數國傢的需求

2024-02-22

傢公司就可能產生宏觀效應的程度” 。而對於身處這場人工智能革命的每個人來說,此次英偉達超預期的業績表現更像是對AI技術持續發展的鼓舞和提振——最強的芯片依舊供不應求,更多公司在前進,蓬勃的市場迫切需要更多

2023-03-17

發佈以及全面植入微軟Office全傢桶,正在全球掀起新一輪人工智能(AI)風暴。作為目前應用最廣的AI芯片,GPU獲得廣泛關註。中國工程院院士、清華大學計算機系教授鄭緯民日前表示,ChatGPT需要三萬多片英偉達A100GPU,初始投入

2024-04-01

用浮點格式FP16和FP32,因為它們具有足夠高的精度。而在AI推理方面則通常使用整數數據格式INT8和INT4。也就是說,現有的美國廠商的計算機產品或組件,如果其綜合浮點算力超過70 TFLOPS,則需要申請許可證才能出口。而這似乎是

2023-11-14

至強 8592+ 64 核)與藍寶石 Rapids(至強 8480+ 56 核)對比:人工智能語音識別: 提升 1.4 倍HPC LAMMPS(Copper): 1.4 倍提升媒體轉碼(FFMPEG):1.2 倍提升第五代至強"Emerald Rapids"CPU 的部分功能包括:快 3 倍的 LLC 高速緩存更快

2024-02-23

創公司。2024年剛開年,微軟、Meta、Google就紛紛宣佈關於人工智能芯片的大動作。微軟正在開發一款類似英偉達網卡ConnectX-7的替代品,旨在提升其Maia AI服務器芯片的性能,並擺脫對英偉達的依賴;Meta則宣佈第二代自研AI芯片Artem

2024-05-25

埃隆馬斯克在巴黎的歐洲科技創新展覽會上分享他對未來人工智能世界的預測。他認為,隨著AI技術的快速發展,未來社會將能夠按需提供所有商品和服務。在這樣的環境下,人們將不再為生計而工作,而是根據個人興趣和愛好

2022-07-06

IDIA GPU的CUDA生態成功克服訓練效率難題並成功掀起這一代人工智能潮流之後,NVIDIA的GPU一直是訓練市場的首選芯片。上周MLperf公佈的最新訓練榜單也再次印證NVIDIA的穩固地位。MLPerf是由機器學習業界的行業組織ML Commons牽頭做的

2023-01-08

億門級超大規模集成電路設計,可滿足顯控、科學計算及人工智能等應用需求。據悉,凌久微電子主要從事GPU/SOC芯片產品設計研發、配套軟件生態構建等,其自研的圖形處理器(GPU)已經廣泛應用於商用計算機、國傢信息安全

2023-10-28

AMD透露,該公司正在考慮為其RyzenAPU系列筆記本電腦采用芯片組設計,但成本和功耗是主要障礙。對於那些不解的人來說,小芯片組(Chiplet)就是將不同的芯片集成到一個封裝中,通過互聯系統實現"工藝縮減&quot