最強開源大模型亮相:開發2個月 花費約1000萬美元


美國當地時間周三,企業軟件公司Databricks宣佈推出新的開源人工智能模型DBRX,聲稱這一模型在開源人工智能領域的效率和性能上樹立新的行業標準。Databricks宣稱,DBRX模型擁有1320億個參數,在語言理解、編程和數學技能等關鍵領域的基準測試中,其性能超過其他領先的開源人工智能模型,包括Meta的Llama2-70B和法國初創企業MixtralAI的模型。


雖然DBRX在某些原始功能上還無法與OpenAI的GPT-4相比,但Databricks高管表示,DBRX無疑是一個功能遠超GPT-3.5的替代產品,並且成本隻是GPT-3.5的一小部分。

Databricks的首席執行官阿裡·戈德西(Ali Ghodsi)在新聞發佈會上表示:“我們非常高興能向全世界展示DBRX,並帶動整個行業向更強大、更高效的開源人工智能方向前進。雖然GPT-4這類基礎模型無疑是極其優秀的通用工具,但Databricks專註於為客戶量身打造模型,這些模型能深入解析他們的專有數據。DBRX的發佈正體現我們實現該目標的決心。”

創新的“專傢混合”架構

Databricks的研究團隊揭示DBRX模型的關鍵創新之處——“專傢混合”架構。這一架構使DBRX與其他競爭模型顯著不同,後者往往利用所有參數生成每個單詞。相較而言,DBRX巧妙地整合16個專傢子模型,並在實時處理中為每個token準確挑選最相關的四個子模型。

這種設計的巧妙之處在於,它使DBRX在任何時刻隻需激活360億個參數,因而實現更高的性能輸出。這不僅顯著提高模型的處理速度,還大幅降低運行成本,使其更為高效和經濟。

這一創新策略是基於Mosaic團隊在早期Mega-MoE項目上的進一步研究而開發的。Mosaic團隊是去年被Databricks收購的一個研究部門。

戈德西高度評價Mosaic團隊的貢獻,他表示:“多年來,Mosaic團隊在更高效訓練基礎人工智能模型方面取得顯著進步。正是他們的努力讓我們能夠迅速開發出如DBRX這般卓越的人工智能模型。實際上,開發DBRX隻用約兩個月時間,成本大概在1000萬美元左右。”

推進Databricks的企業AI戰略

通過將DBRX開源,Databricks的目標不僅是在前沿人工智能研究領域確立其領導者地位,而且還希望促進其創新架構在整個行業中的更廣泛采用。此外,DBRX也致力於支持Databricks的核心業務——為客戶定制和托管基於其專有數據集的人工智能模型。

在如今的市場環境中,很多Databricks的客戶都依賴於OpenAI及其他供應商提供的GPT-3.5等模型來支撐其業務運作。然而,將敏感的企業數據托管給第三方,常常會激起關於安全性和合規性的一系列擔憂。

針對這一點,戈德西表示:“我們的客戶相信,Databricks能夠妥善處理跨國界數據監管的問題。他們已在Databricks平臺上存儲並管理龐大數據量。現在,有DBRX以及Mosaic的定制模型功能,客戶們能夠在保障數據安全的同時,充分利用先進人工智能技術帶來的諸多益處。”

在日益激烈的競爭中占據一席之地

隨著DBRX的推出,Databricks在核心數據和人工智能平臺業務領域面臨著激烈的競爭。競爭對手諸如數據倉庫巨頭Snowflake已通過推出自有的人工智能服務Cortex,復制Databricks的部分功能。同時,亞馬遜、微軟和谷歌等領先的雲計算服務供應商也正紛紛在其技術堆棧中集成生成式人工智能功能。

Databricks借助其開創性的開源項目DBRX,自詡具備最前沿的人工智能研究能力,旨在確立自身作為該領域領導者的地位,並吸引頂尖的數據科學人才。這一策略也反映人們對大型科技公司將人工智能模型商業化的越來越多的抵制,許多人批評這些商業模型像“黑盒子”,缺乏透明度和可解釋性。

DBRX面臨的真正挑戰在於市場的接受程度以及它為Databricks客戶所創造的具體價值。在企業越來越多尋求利用人工智能推動業務增長和創新的同時,還要保持對自有數據的控制,Databricks賭註於其尖端研究與企業級平臺的完美融合能夠讓它在競爭中脫穎而出。

Databricks已經向大型科技公司及開源社區的競爭對手拋出挑戰,要求他們在創新上與其一較高下。人工智能領域的競爭日趨激烈,而Databricks已明確宣佈其志在成為這場競爭的關鍵力量。


相關推薦

2024-04-19

沒有出乎太多意外,Meta帶著號稱“有史以來最強大的開源大模型”Llama3系列模型來“炸街”。具體來說,Meta本次開源8B和70B兩款不同規模的模型。Llama38B:基本上與最大的Llama270B一樣強大。Llama 3 70B: 第一檔 AI 模型,媲美 Gemini 1

2024-02-27

ma登上Hugging Face熱榜的截圖。Keras作者François Chollet直言:最強開源大模型,今日易主。有網友已經親自試用過,表示Gemma 7B真是速度飛快。谷歌簡直是用Gemini拳打GPT-4,用Gemma腳踢Llama 2!網友們也是看熱鬧不嫌事大,召喚Mistral AI

2024-04-23

如果試題太簡單,學霸和學渣都能考90分,拉不開差距……隨著Claude3、Llama3甚至之後GPT-5等更強模型發佈,業界急需一款更難、更有區分度的基準測試。大模型競技場背後組織LMSYS推出下一代基準測試Arena-Hard,引起廣泛關註。Llam

2024-02-22

肉”。短短12天,Google連續放出三個大招,先是9日宣佈其最強大模型Gemini Ultra免費用,又在16日放出大模型“核彈”Gemini 1.5,再是21日突然放出開源模型Gemma,動作之密集、行動之迅速,似乎在向搶自己風頭的OpenAI宣戰。Gemma具體

2023-12-23

上海人工智能實驗室OpenCompass榜首,成為業界公認的性能最強開源大模型。目前,通義千問APP可在蘋果和安卓各大應用商店中下載體驗,提供文本對話、語音對話、文學分析、外語及文言文翻譯、PPT大綱助手、小紅書文案等幾十

2024-02-22

些模型的指南。Keras 作者 François Chollet 對此直接表示:最強開源大模型的位置現在易主。在 HuggingFace 的 LLM leaderboard 上,Gemma 的 2B 和 7B 模型已經雙雙登頂。新的 Responsible Generative AI Toolkit 為使用 Gemma 創建更安全的 AI 應用程序

2024-09-18

力,國際AI領域的競爭日益激烈。同樣在9月,號稱“國服最強”的開源大模型通義千問QwenLM全系列代碼在github(全球最大的開源代碼托管平臺之一)被下架,包括開源新王Qwen2.0在內的項目在訪問時全部404。不僅引發從業者對開

2023-10-12

10月11日消息,據外媒報道,當地時間周二,芯片制造商AMD宣佈收購人工智能(AI)軟件初創公司Nod.ai,以增強其開源AI能力。AMD表示,它已簽署收購Nod.ai的最終協議。此次收購是為優化AMD的軟件能力,擴大其技術產品,尤其是人

2023-11-09

的還有度小滿金融大模型、作業幫銀河大模型,業內公認最強的GPT4被它們無情甩在身後。成績墊底,到底是GPT錯還是榜錯?顯然,榜單有問題,因為它遭遇“不健康的刷榜”。C-Eval團隊在官網發出聲明,承認評測方式有局限性

2024-04-09

專註於開源大模型的社交媒體巨頭Meta在全球AI(人工智能)熱潮中收獲頗豐,帶動紮克伯格身價大漲。近日,根據彭博億萬富豪指數,Meta公司CEO馬克·紮克伯格(MarkZuckerberg)的身傢一度超過特斯拉CEO埃隆·馬斯克(ElonMusk),自

2024-03-09

,但不共享代碼。OpenAI和Anthropic高管認為,政府應該監管最強大的AI模型,這樣壞人就不能輕易利用它們。今年1月,Anthropic 公司研究人員還發表論文警告稱,AI中毒可能導致開源大模型變成潛伏的間諜。圖片來源:arxiv.org但在去

2024-04-10

700 億個參數。最值得註意的是,Meta 的 Llama 系列是作為開源產品構建的,代表一種不同的哲學方法,即人工智能作為一種更廣泛的技術應如何發展。與專有模式相比,Meta 希望通過這種方式獲得更多開發者的青睞。但 Meta 似乎

2024-04-19

今天AI圈又迎來一件大事:Meta正式發佈他們迄今最強的新一代開源大語言模型Llama3。首批發佈的Llama38B和Llama370B包括預訓練和指令微調版本,8K上下文,在兩個24KGPU定制集群上使用15萬億tokens數據訓練而成,Meta稱它們分別是80億和

2023-09-11

。今年7月份,微軟作為首發合作夥伴,出現在Meta下一代開源大語言模型Llama2的發佈會現場。而OpenAI做出的回應一石二鳥:8月23日OpenAI推出基於GPT-3.5Turbo微調功能並更新開放API,用更便利的功能與開源的Llama2競爭,同時也繼續與微