谷歌TPU人馬打造最快推理芯片 喊話奧特曼:你們也太慢


太快太快。一夜間,大模型生成已經沒什麼延遲……來感受下這速度。生成速度已經接近每秒500tokens。還有更直觀的列表對比,速度最高能比以往這些雲平臺廠商快個18倍吧。


(這裡面還有個熟悉的身影:Lepton)

網友表示:這速度簡直就是飛機vs走路


值得一提的是,這並非哪傢大公司進展——

初創公司Groq,GoogleTPU團隊原班人馬,基於自研芯片推出推理加速方案。(註意不是馬斯克的Grok)

據他們介紹,其推理速度相較於英偉達GPU提高10倍,成本卻降低到十分之一。

換言之,任何一個大模型都可以部署實現。

目前已經能支持Mixtral 8x7B SMoE、Llama 2的7B和70B這三種模型,並且可直接體驗Demo。

他們還在官網上喊話奧特曼:

你們推出的東西太慢……


每秒接近500tokens

既然如此,那就來體驗一下這個號稱“史上最快推理”的Groq。

先聲明:不比較生成質量

。就像它自己說的那樣,內容概不負責。


目前,演示界面上有兩種模型可以選擇。


就選擇Mixtral 8x7B-32k和GPT-4同擂臺對比一下。

提示詞:你是一個小學生,還沒完成寒假作業。請根據《星際穿越》寫一篇500字的讀後感。

結果啪的一下,隻需1.76秒就生成一長串讀後感,速度在每秒478Tokens。


不過內容是英文的,以及讀後感隻有三百六十多字。但後面也趕緊做解釋說考慮到是小學生寫不那麼多……


至於GPT-4這邊的表現,內容質量自然更好,也體現整個思路過程。但要完全生成超過三十秒。單是讀後感內容的生成,也有近二十秒鐘的時間。


除Demo演示外,Groq現在支持API訪問,並且完全兼容,可直接從OpenAI的API進行簡單切換。

可以免費試用10天,這期間可以免費獲得100萬Tokens。

目前支持Llama 2-70B 和7B, Groq可以實現4096的上下文長度,還有Mixtral 8x7B這一型號。當然也不局限於這些型號,Groq支持具體需求具體定制。

價格方面,他們保證:一定低於市面上同等價格。


不過可以看到,每秒500tokens似乎還不是終極速度,他們最快可以實現每秒750Tokens


GoogleTPU團隊創業項目

Groq是集軟硬件服務於一體的大模型推理加速方案,成立於2016年,創始團隊中很多都是GoogleTPU的原班人馬。

公司領導層的10人中,有5人都曾有Google的工作經歷,3人曾在英特爾工作。

創始人兼CEO Jonathan Ross,設計並實現第一代TPU芯片的核心元件,TPU的研發工作中有20%都由他完成。


Groq沒有走GPU路線,而是自創全球首個L(anguage)PU方案。

LPU的核心奧義是克服兩個LLM瓶頸——計算密度和內存帶寬,最終實現的LLM推理性能比其他基於雲平臺廠商快18倍。

據此前他們介紹,英偉達GPU需要大約10焦耳到30焦耳才能生成響應中的tokens,而 Groq 設置每個tokens大約需要1焦耳到3焦耳。

因此,推理速度提高10倍,成本卻降低十分之一,或者說性價比提高100倍。


延遲方面,在運行70B模型時,輸出第一個token時的延時僅有0.22秒。


甚至為適應Groq的性能水平,第三方測評機構ArtificialAnalysis還專門調整圖表坐標軸。


據介紹,Groq的芯片采用14nm制程,搭載230MB大SRAM來保證內存帶寬,片上內存帶寬達到80TB/s。

算力層面,Gorq芯片的整型(8位)運算速度為750TOPs,浮點(16位)運算速度則為188TFLOPs。


Groq主要基於該公司自研的TSP架構,其內存單元與向量和矩陣深度學習功能單元交錯,從而利用機器學習工作負載固有的並行性對推理進行加速。


在運算處理的同時,每個TSP都還具有網絡交換的功能,可直接通過網絡與其他TSP交換信息,無需依賴外部的網絡設備,這種設計提高系統的並行處理能力和效率。

結合新設計的Dragonfly網絡拓撲,hop數減少、通信延遲降低,使得傳輸效率進一步提高;同時軟件調度網絡帶來精確的流量控制和路徑規劃,從而提高系統的整體性能。


Groq支持通過PyTorch、TensorFlow等標準機器學習框架進行推理,暫不支持模型訓練。

此外Groq還提供編譯平臺和本地化硬件方案,不過並未介紹更多詳情,想要解的話需要與團隊進行聯系。


而在第三方網站上,搭載Groq芯片的加速卡售價為2萬多美元,差不多15萬人民幣。


它由知名電子元件生產商莫仕(molex)旗下的BittWare代工,同時該廠也為英特爾和AMD代工加速卡。


目前,Groq的官網正在招人。

技術崗位年薪為10萬-50萬美元,非技術崗位則為9萬-47萬美元。


“目標是三年超過英偉達”

除此之外,這傢公司還有個日常操作是叫板喊話各位大佬

當時GPTs商店推出之後,Groq就喊話奧特曼:用GPTs就跟深夜讀戰爭與和平一樣慢……陰陽怪氣直接拉滿~


馬斯克也曾被它痛斥,說“剽竊”自己的名字。


在最新討論中,他們疑似又有新操作。

一名自稱Groq工作人員的用戶與網友互動時表示,Groq的目標是打造最快的大模型硬件,並揚言:

三年時間內趕超英偉達


這下好,黃院士的核武器有新的目標。

參考鏈接:

[1]https://wow.groq.com/

[2]https://news.ycombinator.com/item?id=39428880å


相關推薦

2024-03-30

曼同時提到,除訓練GPT-5外,公司也在聚焦(基於GPT-4)打造更強的推理能力和影像處理能力。就在他講完這句話一個月後,文生視頻引擎Sora登場。撰寫這篇文章的時候,OpenAI周五又放出消息介紹僅基於15秒真人講話的錄音,生

2023-11-09

勁敵”之稱的人工智能初創公司Anthropic即將成為首批使用谷歌新一代TPU芯片的公司之一,在最近達成雲計算服務協議後,此舉進一步加深雙方的合作關系。兩傢公司當地時間周三表示,Anthropic將部署谷歌CloudTPUv5e芯片,為其名為C

2023-05-11

雲提供商正在組建GPU大軍,以提供更多的AI火力。在今天舉行的年度GoogleI/O開發者大會上,Google宣佈一款擁有26,000個GPU的AI超級計算機——A3,這個超級計算機是Google與微軟爭奪AI霸權的鬥爭中投入更多資源進行積極反攻的又一證

2024-02-21

▲Groq領導層根據官網信息,LPU代表語言處理單元,是Groq打造的一種新型端到端處理單元,旨在克服大語言模型的計算密度和內存帶寬瓶頸,計算能力超過GPU和CPU,能夠減少計算每個單詞所需時間,更快生成文本序列。消除外部

2024-02-22

傢成立於2016年人工智能硬件初創公司,核心團隊來源於谷歌最初的張量處理單元(TPU)工程團隊。Groq 創始人兼CEO Jonathan Ross是谷歌TPU項目的核心研發人員。該公司硬件工程副總裁Jim Miller 曾是亞馬遜雲計算服務AWS設計算力硬件

2023-11-13

有模式 GPT-4 的改進。工具包括可為特定應用定制和量身打造的定制版 ChatGPT,以及一個 GPT Store,即最佳應用市場。最終目的是與最受歡迎的 GPT 創建者分成,商業模式類似於蘋果的 App Store。"現在,人們[說]'你們有這個研

2024-03-20

新型先進存儲半導體領域占得先機。Kyung Kye-Hyun還表示,谷歌前高級軟件工程師Dong Hyuk Woo將負責三星在美國和韓國的AGI計算實驗室。該公告發佈恰逢英偉達宣佈備受矚目的Blackwell架構新芯片B200。

2023-03-21

大多數編程語言編寫計算機代碼。GPT-4隻是OpenAI朝著最終打造通用人工智能方面邁出的一小步。當人工智能技術取得突破性進展時,就會出現比人類更聰明的人工智能系統,這就是所謂的通用人工智能。盡管阿爾特曼贊許自傢產

2023-12-07

時代變?迄今為止規模最大,能力最強的Google大模型來。當地時間12月6日,GoogleCEO桑達爾・皮查伊官宣Gemini1.0版正式上線。這次發佈的 Gemini 大模型是原生多模態大模型現在,Google的類 ChatGPT 應用 Bard 已經升級到 Gemini Pro 版本,

2023-12-07

傳說中的Gemini,終於在今天深夜上線!‘原生多模態’架構,是Google的史詩級創舉,Gemini也如願在多個領域超越GPT-4。這場仗,Google必不能輸。Google的復仇大殺器Gemini,深夜忽然上線!被ChatGPT壓著打整整一年,Google選擇在12月的

2024-03-19

沒有興趣。阿爾特曼稱,首先我們要評估能否打造一個比谷歌或者其它公司更優秀的搜索引擎,答案是肯定的。理論上我們應該做這樣的產品,為用戶帶來更好的使用體驗。不過,阿爾特曼認為這種做法太小兒科,真正讓他感到

2023-04-05

谷歌研究人員當地時間4月4日在線發表一篇論文,首次公佈用於訓練人工智能模型的超級計算機的技術細節,並宣稱該系統比英偉達的超算系統更快且功耗更低。谷歌新發表的這篇題為《TPUv4:用於機器學習的光學可重構超級計

2024-07-30

統Apple Intelligence所依賴的模型並非基於NVIDIA芯片,而是在谷歌設計的雲端芯片上進行預訓練的。NVIDIA的GPU一直以高價位和高需求著稱,是許多大型科技公司AI訓練的首選。然而,蘋果選擇谷歌的張量處理單元(TPU),這可能預示

2023-04-05

4月5日消息,當地時間周二,Alphabet旗下的谷歌公開一些新細節,展示用於訓練人工智能模型的超級計算機,稱其比英偉達A100芯片的系統更快、更節能。谷歌公司設計自己的定制芯片,稱為TensorProcessingUnit(TPU),並將這些芯片應用