DeepMind用新AI超越自己:提速200倍 所有雅達利遊戲上勝過人類


DeepMind又對雅達利遊戲下手!這次,他們最新推出的智能體MEME,在效果不變的前提下,比兩年前的Agent57提速200倍!Agent57,是DeepMind在2020年搞的一個智能體,史上首次在所有57個雅達利遊戲中超過人類基準表現。


但它有一個致命缺陷是效率低:需要近800億幀的數據訓練才能實現。

現在,MEME的出現完美解決這一問題。

有網友看完表示:這就是真正的樣本高效吧。


話不多說,趕緊來一睹為快吧。

新的智能體:MEME

Agent57,作為首個在所有雅達利遊戲中超越人類基準表現的智能體,性能上已足夠先進。

但問題是,要想達到這一目標,背後需要780億幀的龐大的經驗訓練,這在時間和成本上都是一筆大開支。

因此,以Agent57為起點,DeepMind采用一系列不同的策略,來實現訓練效率上的提升。

他們調查在減少數據制度時遇到的一系列不穩定因素和瓶頸,並提出有效的解決方案,最後建立一個更加強大和高效的智能體:MEME。

新的MEME智能體主要針對Agent57的4個方面進行改善,分別是:

A.實現與罕見事件相關的學習信號的快速傳播

B.在不同的價值尺度下穩定學習

C.改進神經網絡結構

D.在快速變化的政策下使更新更加穩健


為達到這四個目標,DeepMind采取以下方法,與上述四點相對應。

A1.用在線網絡進行引導;

A2.有公差的目標計算;

B1.損失和優先權歸一化;

B2.交叉混合訓練;

C1.無歸一化的軀幹網絡;

C2.帶有綜合損失的共享軀幹;

D.通過策略提煉的魯棒行為。


這些方法旨在提高Agent57的數據效率,但這種效率的提高不能以犧牲終端性能為代價。

因此,為檢驗經過上述步驟的智能體MEME的效率和性能,研究團隊分別在2億、10億、200億、900億幀環境進行訓練。


通過下圖可以直觀的看出,新智能體MEME在3.9億幀時就超過人類基準,比Agent57快兩個數量級,並且在將參數量從90B減少到1B的情況下,取得類似的最終表現。

可以說相比Agent57而言,MEME既提升效率,又保持性能。


研究團隊

MEME的研究團隊來自DeepMind。

其中三位Adrià Puigdomènech Badia、Steven Kapturowski、Charles BlunDELL也是之前Agent57的論文作者。


值得一提的是,Steven Kapturowski在兩篇論文中都是一作。

他畢業於美國科羅拉多大學博爾德分校,曾在蘋果、微軟、GlaSSDoor等公司工作過,現在是DeepMind的一名高級研究工程師。



相關推薦

2024-03-03

》一經推出就獲得玩傢歡迎,名垂遊戲設計青史,也成為DeepMind團隊訓練深度學習的遊戲系統。從人工智能開山祖師圖靈和香農寫的下棋程序開始,早期的人工智能就致力於創造一款在遊戲中打敗人類的程序。因此DeepMind將強化

2022-09-02

結果——贏就有好東西吃,輸就要被吃(bushi)。另外,DeepMind開發出過一個能在57款雅達利遊戲上都超越人類玩傢的智能體,背後依靠的同樣是強化學習算法。不過這裡的獎勵和懲罰機制就要根據不同的遊戲來具體設計。比如玩

2024-03-22

包括Adaptive Hub、D-Pad 按鈕、鼠標、鼠標尾部和拇指支持,所有這些都是為殘疾用戶提供 Windows 計算服務而設計的。該系列因其定制化程度而受到熱烈歡迎,這也是向盡可能多的人開放這些產品的關鍵部分。在本周的虛擬 Windows 大

2024-02-14

在Google參與深度學習與計算機視覺項目。2015 年,他又去 DeepMind 的深度強化學習團隊實習一波。畢業之後,Karpathy 於 2016 年入職 OpenAI 並擔任研究科學傢,負責計算機視覺、生成建模和強化學習方面的深度學習。“斯坦福博士生

2023-03-29

Ngo,也對兩年後AI的發展程度進行預測。在此之前,他是DeepMind的AGI安全團隊的研究工程師。根據Richard的預測,神經網絡在發展到2025年底時將具備以下特性:擁有人類水平的態勢感知,比如知道自己是神經網絡等在撰寫復雜且

2024-04-17

人類,但並非在所有任務上人工智能已在多項基準測試中超越人類,包括在圖像分類、視覺推理和英語理解方面。然而,它在競賽級數學、視覺常識推理和規劃等更復雜的任務上依然落後於人類。2.產業界繼續主導人工智能前

2023-12-04

到某種意義上的感知能力,具備常識的人工智能系統可以超越僅僅以創造性的方式總結大量文本的能力。 他的觀點與英偉達截然相反英偉達首席執行官黃仁勛最近表示,人工智能將在不到五年的時間內與人類“相當有競爭力”

2023-11-13

AGI如何定義、又何時到來?來自GoogleDeepMind的創始人兼首席AGI科學傢ShaneLegg向我們描述當下我們與AGI的距離。10月26日,在X上有三萬訂閱的DwarkeshPodcast(矮人播客)主持人DwarkeshPatel采訪GoogleDeepMind的創始人兼首席AGI科學傢ShaneLegg

2024-03-15

內可以完成的簡單任務,而且未見過的遊戲也會玩。GoogleDeepMind號稱打造出首個能在廣泛3D虛擬環境和視頻遊戲中遵循自然語言指令的通用AI智能體。名為SIMA,不是NPC,是可以成為玩傢拍檔,幫忙幹活打雜的那種。比如,在《模

2024-03-15

內可以完成的簡單任務,而且未見過的遊戲也會玩。GoogleDeepMind號稱打造出首個能在廣泛3D虛擬環境和視頻遊戲中遵循自然語言指令的通用AI智能體。名為SIMA,不是NPC,是可以成為玩傢拍檔,幫忙幹活打雜的那種。比如,在《模

2024-03-16

內可以完成的簡單任務,而且未見過的遊戲也會玩。GoogleDeepMind號稱打造出首個能在廣泛3D虛擬環境和視頻遊戲中遵循自然語言指令的通用AI智能體。名為SIMA,不是NPC,是可以成為玩傢拍檔,幫忙幹活打雜的那種。比如,在《模

2024-03-15

內可以完成的簡單任務,而且未見過的遊戲也會玩。GoogleDeepMind號稱打造出首個能在廣泛3D虛擬環境和視頻遊戲中遵循自然語言指令的通用AI智能體。名為SIMA,不是NPC,是可以成為玩傢拍檔,幫忙幹活打雜的那種。比如,在《模

2023-12-04

成長到“相當有競爭力”的水平,在許多腦力密集型任務上勝過人類。未來更有可能出現“貓級”人工智能楊立昆表示,在“人類級”水平的人工智能出現前,社會更有可能出現“貓級”或者“狗級”的人工智能。科技行業目前

2023-04-25

上周五,GoogleDeepMind官宣成立,將原DeepMind和GoogleBrain所有AI人才整合到一個團隊,希望增加其在大模型競賽中的競爭力,及加快其實現通用人工智能(AGI)的步伐。“進步的步伐比以往任何時候都快,為確保 AGI 的大膽和負責任