蘋果公司的研究人員發現一種快速訓練大型語言模型(LLMs)的新型多模式方法,這種方法可以實現更靈活、更強大的機器學習和"人工智能"系統。
該公司本周早些時候在研究網站 arxiv.org 上發佈的一篇研究論文顯示,蘋果公司使用一種所謂的"精心混合"圖像字幕、交錯圖像文本和純文本數據來訓練 LLM。視覺和語言數據的混合使模型能夠處理智能地為圖像添加標題或推斷自然語言含義等任務。
研究發現,圖像編碼器的選擇及其處理圖像的分辨率對性能的影響比視覺語言連接器的設計更大。
在一個使用 300 億參數 MM1 模型的實例中,研發人員發現強大的上下文學習能力。這一發現意味著,隻需很少的"思維鏈"提示,它就能對多幅圖像進行多步驟推理。
據 Venturebeat 報道,在突破性技術方面,蘋果公司正在延續其"快速追隨者"而非"先行者"的傳統。首席執行官蒂姆-庫克(Tim Cook)最近承認,公司每年花費 10 億美元將"人工智能"融入現有技術。
庫克表示,公司將在今年晚些時候分享"我們正在進行的人工智能工作的細節"。預計蘋果公司將在今年 6 月的 WWDC 大會上宣佈一些進展情況。
在使用人工智能相關技術方面,該公司正在追趕競爭對手。它還在開發既能保護用戶隱私,又能增強現有機器學習能力的方法。
後一種對隱私和安全的擔憂並不是現有"聊天機器人"類型服務的特點,這也增加蘋果面臨的挑戰。
蘋果公司對神經網絡的多模型訓練很感興趣,並因此獲得最先進的性能,可以進行多步推理。這表明,該公司已經找到一條快速提升機器學習能力並賦予其高級"智能"能力的道路。
閱讀文獻解更多:
https://arxiv.org/abs/2403.09611