Meta 發佈新多token預測技術,使AI模型速度提升3倍


劃重點:

⭐ 研究人員在 Meta、Ecole des Ponts ParisTech 和 Université Paris-Saclay 的一項研究中提出通過同時預測多個token來改進 AI 大型語言模型(LLMs)的準確性和速度。

⭐ 多token預測使模型在推理時間上提升3倍,並在生成任務上表現更佳,特別是對於長期模式的學習。

⭐ 這項研究為企業應用提供更快的推理速度和更高的準確性,特別適用於生成任務,同時與 Transformer 塊的其他優化技術兼容。

站長之傢(ChinaZ.com) 5月7日 消息:近期,Meta、Ecole des Ponts ParisTech 和 Université Paris-Saclay 的研究人員在一項研究中提出一種改進 AI 大型語言模型(LLMs)準確性和速度的方法,即通過同時預測多個token。這與自回歸語言模型的經典結構相悖,後者旨在一次預測一個token。

然而,多token預測並非適用於所有類型的模型和語言任務,但在某些領域中提供重大優勢,推理速度提升3倍,並在生成任務上表現更佳。雖然仍有改進空間,但這項技術可能成為某些 LLM 應用的強大工具。

傳統的訓練 LLMs 的方法被稱為 “下一個token預測”,這是一種自監督學習技術,模型被給定一個token序列,必須預測下一個token。然後將預測的token添加到輸入中,重復這個過程,一次預測一個token。在大量文本語料上重復此過程,模型學習允許它輸出連貫文本段落的一般模式。

研究人員已經研究並記錄下一個token預測在獲取語言、世界知識和推理能力方面的局限性。新研究的假設是 “訓練語言模型同時預測多個未來token會導致更高的樣本效率”。

多token預測指示 LLM 同時預測訓練語料庫中每個位置的多個來token。研究人員提出一個簡單的多token預測架構,不需要額外的訓練時間或內存開銷。

他們在多種任務上測試新的多token預測方案,發現在小型模型上,多token預測導更差的結果,但隨著模型規模的增加,它變得越來越有用。此外,多token預測還使模型在推理時間上提升3倍,尤其在 “字節級標記化” 訓練上,多字節預測大幅優於基線的單字節預測模型。多token預測仍有改進空間,研究人員正在考慮自動選擇最佳預測token數量的技術,以及研究詞匯量和多token預測之間的動態關系。

這項研究及其未來的改進對企業應用有用的地方在於,它有可能為生成任務提供更快的推理和更高的準性,幾乎不需要額外的成本。同時,它保留大部分 LLM 架構,可以與 Transformer 塊的其他優化技術兼容。


相關推薦

2024-02-21

便宜的每token價格,承諾其價格“超過同等上市型號的已發佈供應商的任何已公佈的每百萬tokens價格”。據悉,Groq下一代芯片將於2025年推出,采用三星4nm制程工藝,能效預計相較前一代提高15~20倍,尺寸將變得更大。執行相同任

2024-04-19

今天AI圈又迎來一件大事:Meta正式發佈他們迄今最強的新一代開源大語言模型Llama3。首批發佈的Llama38B和Llama370B包括預訓練和指令微調版本,8K上下文,在兩個24KGPU定制集群上使用15萬億tokens數據訓練而成,Meta稱它們分別是80億和

2024-02-22

昨日晚間,Google毫無預兆地發佈開源模型Gemma,直接狙擊Llama2,繼通過Gemini拳打OpenAI後,試圖用Gemma腳踢Meta。不同於Gemini的“全傢桶”路線,Gemma主打輕量級、高性能,有20億、70億兩種參數規模,能在筆記本電腦、臺式機、物聯

2024-04-19

邁上一個新的臺階。得益於預訓練和後訓練的改進,本次發佈的預訓練和指令微調模型是當今 8B 和 70B 參數規模中的最強大的模型。同時後訓練流程的優化顯著降低模型的出錯率,增強模型的一致性,並豐富響應的多樣性。紮克

2024-05-21

錐智能(ID:guangzhui-tech),作者:藝思,授權站長之傢轉載發佈。十年後,國內雲廠商又打起來!近一個月,國內雲廠商掀起新一輪的大模型降價潮。這意味著AI競爭已經不僅僅是一場軍備技術競賽這麼簡單,各頭部廠商也在考慮如

2024-03-06

型,真正做到與GPT-4全面掰手腕。要知道,從OpenAI去年3月發佈“最強大模型”GPT-4到今天,整整一年來,這是第一款真正挑戰到其天花板地位的模型,不僅評測成績通通趕超,而且是在幾個測試任務中以零樣本戰勝對手,還在第

2023-11-08

再次展示什麼叫“遙遙領先”。我們先簡單回顧一下這場發佈會的所有重點,其實無非就是三件事:一是技術能力:GPT-4 Turbo升級6大新能力,包括128K的上下文長度、更強的控制能力,模型的知識升級、多模態能力(語音和CV)、

2024-02-22

美國人工智能初創公司Groq最新推出的面向雲端大模型的推理芯片引發業內的廣泛關註。其最具特色之處在於,采用全新的TensorStreamingArchitecture(TSA)架構,以及擁有超高帶寬的SRAM,從而使得其對於大模型的推理速度提高10倍以上,

2022-08-08

其中,Meta還針對部分敏感主題做一些預設的回復。如果預測到一個潛在的不安全的用戶響應,系統就會命令轉移話題,從而防止機器人掉進“坑”裡。結果從結果來看,與BlenderBot 2相比,BlenderBot 3在對話任務上的總體評分提高31

2024-04-08

肆無忌憚地侵犯它的知識產權”也就是說,幾十年前某人發佈的私人照片或私密想法,很可能在不知情的情況下,被AI模型原樣吐出來!這次“ChatGPT在回復中泄露陌生男子自拍照事件”,讓大傢頗為恐慌這些隱患,目前還沒有有

2024-04-08

品。最終Google趕在美國國慶節(7月4日)放假前的7月1日發佈修改後的隱私條款,將“使用公開信息訓練AI模型”首次納入其中。Bryant回應稱,公司不會在沒有用戶“明確許可”的情況下使用他們的Google文檔來訓練AI,這裡指的是

2023-05-17

據報道,谷歌上周發佈的最新大語言模型使用的訓練數據,幾乎是2022年的上一代模型的5倍。得益於此,該模型在編程、數學和創意寫作方面的表現更為優秀。谷歌是在其I/O開發者大會上發佈最新通用大語言模型PaLM2的。內部文

2024-03-19

塞SAP中心,發表GTC2024的主題演講《見證AI的變革時刻》。發佈會上,黃仁勛介紹全新芯片Blackwell,他稱Blackwell的推理能力是驚人的,相較於前代產品H100有著驚人的提升,是Hopper的30倍。英偉達表示,Blackwell 架構的 GPU 預計將於今

2024-02-19

而無需調整大小或填充等預處理步驟。記者註意到,OpenAI發佈的Sora技術報告中透露Sora的主要理論基礎,其中Patch的技術論文名為Patch n‘ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution。記者查詢預印本網站arxiv後發現,