Meta稱其LLaMA語言模型比OpenAI的GPT-3更有前景

2023-02-28 來自站長之傢發表於業界精選

在OpenAI推出大型語言模型ChatGPT後，競爭對手紛紛迎頭趕上。谷歌有Bard，微軟有新必應。現在，Meta也上線一個新模型LLaMA。目前，該模型隻對研究人員開放。據解，LLaMA是LargeLanguageModelMetaAI的首字母縮寫詞，比現有的模型更小，因為它是為無法訪問大量基礎設施的研究社區構建的。

LLaMA 有多種尺寸，從70億個參數到650億個參數不等。

Meta方面稱，盡管 LLaMA-13B 的尺寸較小，而且少1620億個參數，但“在大多數基準測試中”表現優於 OpenAI 的GPT-3。

據報道，最大的模型 LLaMA-65B 與 DeepMind 的Chinchilla70B和PaLM-540B等模型可相提並論。

LLaMA 是一個基礎模型:它在大量未標記數據上進行訓練，這使得研究人員更容易針對特定任務微調模型。由於模型更小，因此更容易針對用例進行再訓練。

LLaMA不僅僅是使用英語文本構建的。Meta使用20種使用拉丁語或西裡爾語腳本的語言訓練其模型。然而，大多數訓練數據都是英語，因此模型性能更好。

Meta 的研究人員聲稱，由於模型的大小，對當前大型語言模型的訪問受到限制。

Meta 認為“這種受限訪問限制研究人員理解這些大型語言模型如何工作以及為何工作的能力，阻礙提高其穩健性和解決已知問題（例如偏見、侮辱和產生錯誤信息的可能性）的努力”。

除使模型更小之外，Meta 還試圖讓 LLaMA 更易於訪問，包括在非商業許可下發佈它。

對各種 LLaMA 模型的訪問權限隻會根據具體情況授予學術研究人員，例如隸屬於政府、民間組織和學術界的研究人員。

與 ChatGPT 一樣，LLaMA 與其他語言模型一樣存在生成有偏見或不準確的信息。Meta 的 LLaMA 聲明承認這一點，並表示通過共享模型，研究人員可以“更輕松地測試新方法來限制或消除大型語言模型中的這些問題。”

Meta在去年5月曾推出一款面向研究人員的名為OPT-175B的大型語言模型，去年年底還發佈過另一款模型Galactica，但後者被發現經常分享有偏見或不準確的信息，在48小時內被迅速下架。

Meta稱其LLaMA語言模型比OpenAI的GPT-3更有前景

相關推薦

Meta發佈Llama 3 稱其是目前最好的開放式模型之一

最強開源大模型深夜炸場：Llama 3 王者歸來表現直逼 GPT-4

Google一月三大招硬剛OpenAI：開源最強大模型Gemini技術碾壓Llama 2

小紮、LeCun官宣650億參數SOTA大語言模型LLaMA

OpenAI核心資料被盜 Google承認“主動攻擊” 成本僅150元？

Llama3發佈開源模型追上閉源模型的歷史時刻就在眼前？

斯坦福大學復制出ChatGPT人工智能訓練成本不到600美元

Meta推出先進大型語言模型下一個ChatGPT不遠？

Meta官宣深入AI大戰推出先進大型語言模型

誰在“吊打”ChatGPT？

馬斯克為何要作開源“秀”?

ChatGPT全球最大開源平替：回復更受歡迎但中文對話一塌糊塗

為什麼OpenAI更有可能在今年發佈GPT-4.5而不是GPT-5？

Meta語言AI工具泄露公司回應：不會改變發佈策略