Google加入開源戰局 低配版Gemma相當於OpenAI把GPT-3開源


幾傢巨頭之間的大模型競爭,越來越像打牌。你出完炸彈我出炸彈。這不,又一個深夜炸彈。2月21日,在與閉源的OpenAI打得火熱的同時,Google突然加入開源的戰局。北京時間夜間Google突然宣佈,開源一個新的模型系列Gemma,這個模型使用與它最強的Gemini同源的技術,並且在一系列的標準測試上秒殺幾款今天最熱門的開源模型。

怎麼理解這個動作的重要性呢?你可以粗暴的理解為:

這有點像現在正在訓練更強大的GPT-5的OpenAI,把GPT3的低參數版給開源。(前幾天Sam Altman被問過這個問題,你們是否會在未來把GPT3開源,他沒有直接回答。現在看來Google針對性很強啊。)


(X上一張有意思的圖)

根據Google官方對Gemma的介紹,它的基本信息如下:

Gemma是Google開源的一個大型語言模型,而非像Gemini那樣是多模態的,它基於與Gemini相同的技術構建,但完全公開並允許商用授權。

Gemma模型有兩個主要版本,分別是Gemma 7B(70億參數)和Gemma 2B(20億參數)。這些模型在大規模的數據集上進行訓練,數據集包含以英語為主的網絡文檔、數學數據以及代碼數據,總量達到6萬億tokens。

Gemma模型的特點包括:

架構細節:Gemma模型具有不同的參數規模,Gemma-2B有18層,d_model為2048,而Gemma-7B有28層,d_model為3072。這些模型還具有不同的前饋隱藏維度、頭數和KV頭數,以及詞匯量。


新技術:Gemma采用一些新技術,如Multi-Query Attention、RoPE Embeddings、GeGLU激活函數以及Normalizer Location,這些技術有助於提高模型的性能。

評測結果:Google官方宣稱Gemma模型在70億參數規模的語言模型中表現最佳,甚至超過一些參數量更大的模型。

開源情況:Gemma模型遵循一個自定義的開源協議,允許商業使用。


發佈完,Jeff Dean就對這個系列模型劃重點:

Gemma-7B模型在涵蓋通用語言理解、推理、數學和編程的8項基準測試中,性能超過廣泛使用的Llama-2 7B和13B模型。它在數學/科學和編程相關任務上,通常也超過Mistral 7B模型的性能。


Gemma-2B IT和Gemma-7B IT這兩個經過指令調整的模型版本,在基於人類偏好的安全評估中,都優於Mistral-7B v0.2指令模型。特別是Gemma-7B IT模型在遵循指令方面也表現更佳。


(有意思的是,在Google曬出的成績對比中,阿裡的千問背後的模型Qwen系列表現也很亮眼)


我們也發佈一個負責任的生成性人工智能工具包(Responsible Generative AI Toolkit),它為負責任地使用像Gemma模型這樣的開放模型提供資源,包括:

關於設定安全政策、安全調整、安全分類器和模型評估的指導。

學習可解釋性工具(Learning Interpretability Tool,簡稱LIT),用於調查Gemma的行為並解決潛在問題。

一種構建具有最小樣本量的強大安全分類器的方法論。

我們發佈兩個版本的模型權重:Gemma 2B和Gemma 7B。每個版本都提供預訓練和指令調整的變體。

我們為所有主要框架提供推理和監督式微調(SFT)的工具鏈:通過原生Keras 3.0支持的JAX、PyTorch和TensorFlow。

提供即用型的Colab和Kaggle筆記本,以及與流行的工具如Hugging Face、MaxText、NVIDIA NeMo和TensorRT-LLM的集成,使得開始使用Gemma變得簡單。

預訓練和指令調整的Gemma模型可以在您的筆記本電腦、工作站或Google Cloud上運行,並且可以輕松部署在Vertex AI和Google Kubernetes Engine(GKE)上。

在多個AI硬件平臺上的優化確保行業領先的性能,包括NVIDIA GPU和Google Cloud TPUs。

使用條款允許所有規模的組織負責任地進行商業使用和分發。

可以看到Jeff Dean和Google這次都十分強調開源模型的安全性和具體的實打實的配套設施和舉措。這似乎也直至被詬病Close AI且被外界質疑安全性保障的OpenAI。


現在,憋壞的Google正式四面開戰。未來它將用Gemma對抗Llama,用Gemini對抗GPT。

無論是開源還是閉源,競爭越來越焦灼。


相關推薦

2024-02-22

昨日晚間,Google毫無預兆地發佈開源模型Gemma,直接狙擊Llama2,繼通過Gemini拳打OpenAI後,試圖用Gemma腳踢Meta。不同於Gemini的“全傢桶”路線,Gemma主打輕量級、高性能,有20億、70億兩種參數規模,能在筆記本電腦、臺式機、物聯

2024-03-18

如果全世界隻有一傢公司能趕超OpenAI,那Google應該是第一。最近,Google重磅發佈一篇論文報告,裡面提出一種名為“模型竊取”的技術。通過模型竊取技術,Google成功破解ChatGPT基礎模型Ada和Babbage的投影矩陣,甚至連內部隱藏維

2024-02-27

模型既可以在個人筆記本電腦和工作站上運行,也可以在Google Cloud上部署,支持在Vertex AI和Google Kubernetes Engine (GKE) 上的簡易部署。- 谷歌還對Gemma進行跨平臺優化,確保它在NVIDIA GPU和Google Cloud TPU等多種AI硬件上的卓越性能。並且

2024-02-22

這份財報會成為左右美股走勢的波動性事件。比起微軟、Google這些需要時間驗證AI技術帶來實際收益的公司,英偉達的業績能更直觀反映如今生成式工智能賽場的競爭勢頭,投資者們甚至沒留下任何容錯餘地,等待這份“必須”

2024-02-22

Google發佈一對開源人工智能模型Gemma2B和7B,讓開發者可以更自由地使用其旗艦產品Gemini的研究成果。雖然Gemini是一個大型封閉式人工智能模型,與OpenAI的ChatGPT直接競爭(而且幾乎一樣強大),但輕量級的Gemma可能適用於較小的任

2024-02-22

開源領域大模型,迎來重磅新玩傢。Google推出全新的開源模型系列“Gemma”。相比Gemini,Gemma更加輕量,同時保持免費可用,模型權重也一並開源,且允許商用。Gemma 官方頁面:https://ai.google.dev/gemma/本次發佈包含兩種權重規模的

2024-03-09

曼等人攜手創辦非營利性AI研究實驗室“OpenAI”來對抗以Google為代表的科技巨頭。而如今,馬斯克與阿爾特曼及其所在的OpenAI徹底決裂,雙方舊日堅持的“初心”成為矛盾焦點。在OpenAI的官網主頁上寫著,“我們的使命是確保通

2023-11-09

Llama 2之後,很多模型還沒有投入市場就已經過時。就連Google的工程師都在內部直言稱,Google和OpenAI都沒有護城河。大模型更新迭代太快。“今天你推出一個大模型,花錢打榜,有很多人用,可能明天就有個新的模型迅速替代掉

2024-04-19

主要平臺上可用,包括雲服務商、API 提供商等。從AWS、Google Cloud、Databricks、Snowflake 、NVIDIA NIM到Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure——Llama 3 將無處不在。它也得到 AMD、AWS、Dell、Intel、NVIDIA 和 Qualcomm 提供的硬件平臺支持

2023-02-25

a終於向全世界證明:自己是有正經研究AI的!眼看微軟、Google、OpenAI這一陣子掙足眼球,Meta也坐不住。2月24日,小紮官宣下場:我們有全新的SOTA大語言模型LLaMA。劃重點:和OpenAI的ChatGPT、Google的Bard不同,LLaMA這個AI並不是用來

2024-04-19

中,Llama 3 8B 優於其他開源模型,如 Mistral 的Mistral 7B和 Google 的Gemma 7B,這兩個模型都包含 70 億個參數:這些基準包括:MMLU、ARC、DROP、GPQA(一組生物、物理和化學相關問題)、HumanEval(代碼生成測試)、GSM-8K(數學單詞問題)

2024-04-19

顯示,Llama 3 8B 在 MMLU、GPQA、HumanEval 等測試的得分遠超 Google Gemma 7B 以及 Mistral 7B Instruct。用紮克伯格的話來說,最小的 Llama 3 基本上與最大的 Llama 2 一樣強大。Llama 3 70B 則躋身於頂尖 AI 模型的行列,整體表現全面碾壓 Claude 3 大

2023-04-27

4月25日,構建大型開源社區的AI初創公司HuggingFace(抱抱臉)宣佈推出開源聊天機器人HuggingChat。與ChatGPT類似,HuggingChat可以完成一些復雜的生成任務,包括編寫代碼、起草電子郵件、創作歌詞等等,號稱“開源版Android應用商店

2023-04-14

共享超過10萬個預訓練模型,1萬多個數據集,包括微軟、Google、Bloomberg、英特爾等各個行業超過1萬傢機構都在使用Hugging Face的產品。在HuggingGPT中,ChatGPT通過扮演“操作大腦”的角色,能夠自動解析用戶提出的需求,接著在 Huggi