在OpenAI推出大型語言模型ChatGPT後,競爭對手紛紛迎頭趕上。谷歌有Bard,微軟有新必應。現在,Meta也上線一個新模型LLaMA。目前,該模型隻對研究人員開放。據解,LLaMA是LargeLanguageModelMetaAI的首字母縮寫詞,比現有的模型更小,因為它是為無法訪問大量基礎設施的研究社區構建的。
LLaMA 有多種尺寸,從70億個參數到650億個參數不等。
Meta方面稱,盡管 LLaMA-13B 的尺寸較小,而且少1620億個參數,但“在大多數基準測試中”表現優於 OpenAI 的GPT-3。
據報道,最大的模型 LLaMA-65B 與 DeepMind 的Chinchilla70B和PaLM-540B等模型可相提並論。
LLaMA 是一個基礎模型:它在大量未標記數據上進行訓練,這使得研究人員更容易針對特定任務微調模型。由於模型更小,因此更容易針對用例進行再訓練。
LLaMA不僅僅是使用英語文本構建的。Meta使用20種使用拉丁語或西裡爾語腳本的語言訓練其模型。然而,大多數訓練數據都是英語,因此模型性能更好。
Meta 的研究人員聲稱,由於模型的大小,對當前大型語言模型的訪問受到限制。
Meta 認為“這種受限訪問限制研究人員理解這些大型語言模型如何工作以及為何工作的能力,阻礙提高其穩健性和解決已知問題(例如偏見、侮辱和產生錯誤信息的可能性)的努力”。
除使模型更小之外,Meta 還試圖讓 LLaMA 更易於訪問,包括在非商業許可下發佈它。
對各種 LLaMA 模型的訪問權限隻會根據具體情況授予學術研究人員,例如隸屬於政府、民間組織和學術界的研究人員。
與 ChatGPT 一樣,LLaMA 與其他語言模型一樣存在生成有偏見或不準確的信息。Meta 的 LLaMA 聲明承認這一點,並表示通過共享模型,研究人員可以“更輕松地測試新方法來限制或消除大型語言模型中的這些問題。”
Meta在去年5月曾推出一款面向研究人員的名為OPT-175B的大型語言模型,去年年底還發佈過另一款模型Galactica,但後者被發現經常分享有偏見或不準確的信息,在48小時內被迅速下架。