劃重點:
⭐ 研究人員在 Meta、Ecole des Ponts ParisTech 和 Université Paris-Saclay 的一項研究中提出通過同時預測多個token來改進 AI 大型語言模型(LLMs)的準確性和速度。
⭐ 多token預測使模型在推理時間上提升3倍,並在生成任務上表現更佳,特別是對於長期模式的學習。
⭐ 這項研究為企業應用提供更快的推理速度和更高的準確性,特別適用於生成任務,同時與 Transformer 塊的其他優化技術兼容。
站長之傢(ChinaZ.com) 5月7日 消息:近期,Meta、Ecole des Ponts ParisTech 和 Université Paris-Saclay 的研究人員在一項研究中提出一種改進 AI 大型語言模型(LLMs)準確性和速度的方法,即通過同時預測多個token。這與自回歸語言模型的經典結構相悖,後者旨在一次預測一個token。
然而,多token預測並非適用於所有類型的模型和語言任務,但在某些領域中提供重大優勢,推理速度提升3倍,並在生成任務上表現更佳。雖然仍有改進空間,但這項技術可能成為某些 LLM 應用的強大工具。
傳統的訓練 LLMs 的方法被稱為 “下一個token預測”,這是一種自監督學習技術,模型被給定一個token序列,必須預測下一個token。然後將預測的token添加到輸入中,重復這個過程,一次預測一個token。在大量文本語料上重復此過程,模型學習允許它輸出連貫文本段落的一般模式。
研究人員已經研究並記錄下一個token預測在獲取語言、世界知識和推理能力方面的局限性。新研究的假設是 “訓練語言模型同時預測多個未來token會導致更高的樣本效率”。
多token預測指示 LLM 同時預測訓練語料庫中每個位置的多個來token。研究人員提出一個簡單的多token預測架構,不需要額外的訓練時間或內存開銷。
他們在多種任務上測試新的多token預測方案,發現在小型模型上,多token預測導更差的結果,但隨著模型規模的增加,它變得越來越有用。此外,多token預測還使模型在推理時間上提升3倍,尤其在 “字節級標記化” 訓練上,多字節預測大幅優於基線的單字節預測模型。多token預測仍有改進空間,研究人員正在考慮自動選擇最佳預測token數量的技術,以及研究詞匯量和多token預測之間的動態關系。
這項研究及其未來的改進對企業應用有用的地方在於,它有可能為生成任務提供更快的推理和更高的準性,幾乎不需要額外的成本。同時,它保留大部分 LLM 架構,可以與 Transformer 塊的其他優化技術兼容。