蘋果公司已經公開分享四個開源模型,這些模型擁有更高的查詢準確性,有助於未來人工智能模型的開發。隨著科技行業在人工智能方面的不斷發展,蘋果公司也不斷提供更多關於其正在研發的技術的信息。在最新的公開版本中,蘋果發佈四款開源模型。
這些指導模型被稱為開源高效 LLMs 或 OpenELMs,托管在協作平臺 Hugging Face 上。Hugging Face 用於托管人工智能模型,以及對其進行訓練和與他人合作改進。
OpenELM 是指一個開源庫,它利用進化算法將多個大型語言模型 (LLM) 結合在一起。
這四個 OpenELM 模型采用"分層縮放策略",在變壓器機器學習模型的各層中分配參數,以提高精確度。
這些模型使用 CoreNet 庫進行預訓練。蘋果公司提供使用 2.7 億、4.5 億、11 億和 30 億個參數的預訓練和指令調整模型。
預訓練數據集由 Dolma v1.6 子集、RefinedWeb、重復 PILE 和 RedPajama 子集組合而成。這樣得到的數據集約有 1.8 萬億個標記。
在本周二發佈的一篇相關論文中,該項目的研究人員表示,大型語言模型的可重復性和透明度"對於推進開放式研究至關重要"。它還有助於確保結果的可信度,並允許對模型偏差和風險進行調查。
至於模型的準確性,據解釋,在使用 10 億個參數預算的情況下,OpenELM 比 OLMo 的準確性提高 2.36%,而所需的預訓練代幣數量僅為 OLMo 的一半。
模型和論文的作者包括 Sachin Mehta、Mohammad Hossein Sekhavat、Qingqing Cao、Maxwell Horton、Yanzi Jin、Chenfan Sun、Iman Mirzadeh、Mahyar Najibi、Dmitry Belenko、Peter Zatloukal 和 Mohammad Rastegari。
發佈這些模型的源代碼是蘋果公司宣傳其人工智能和機器學習發展成果的最新嘗試。
這並不是蘋果公司第一次公開發佈人工智能程序。今年10 月,蘋果分享一個名為 Ferret 的開源 LLM,它改進模型分析圖像的方式。
今年 4 月,Ferret 的新版本增加解析應用程序截圖中數據點的功能,並能大致解應用程序的功能。此外,還發佈關於生成式人工智能動畫工具和創建人工智能頭像的論文。預計 6 月份的 WWDC 將包括蘋果產品在人工智能方面的許多進展。