10秒內可以完成的簡單任務,而且未見過的遊戲也會玩。GoogleDeepMind號稱打造出首個能在廣泛3D虛擬環境和視頻遊戲中遵循自然語言指令的通用AI智能體。名為SIMA,不是NPC,是可以成為玩傢拍檔,幫忙幹活打雜的那種。
比如,在《模擬山羊3》(Goat Simulator 3)中當司機開開車:
在《幸福工廠》(Satisfactory)中挖礦石:
在《瓦爾海姆》(Valheim)中尋找水源:
在《無人深空》中(No Man’s Sky)駕駛宇宙飛船射擊小行星收集資源:
……
SIMA全稱Scalable Instructable Multiworld Agent,顧名思義可擴展、可指導、多世界。
之前,GoogleDeepMind在AI+遊戲方面也做過許多工作,比如推出能和人類玩傢打PK、會玩《星際爭霸II》的AlphaStar系統。
而SIMA被DeepMind稱作是一個“新的裡程碑”,主打從適用單一遊戲轉向通用多種遊戲,且可遵循語言指令。
SIMA一公開,網友們也是討論熱烈。
讓它們替我完成無聊繁瑣的任務,這樣我就可以直接做有趣的部分,而不必花幾個小時培育chocobos獲取隨機召喚。
嗯…《最終幻想》(Final Fantasy)玩傢無疑。
專業《模擬山羊》玩傢在此刻也懵:
最近這一連串的AI進展也是整的網友們措不及防,直呼“慢一點”:
10秒內完成的簡單任務
接下來再來看一波SIMA的表現。
為讓SIMA接觸到更多遊戲環境,開發團隊表示目前已與八傢遊戲工作室合作,在九款不同的視頻遊戲上訓練和測試SIMA。
當前的SIMA已在600個基本技能上進行評估。
基本操作、交互、使用菜單都會:
簡單的任務,10秒內可完成。
各種場景都能適應:
除此外,GoogleDeepMind還發佈一份技術報告,一起來看看裡面都有啥。
未見過的遊戲也會玩
SIMA的整體架構是將預訓練視覺模型與自監督學習的Transformer相結合。
從用戶那裡接收語言指令,並從環境中獲取圖像觀察結果,然後將它們映射為鍵盤和鼠標動作。
具體架構如下圖:
開發人員收集一個既包括精選研究環境又包括商業視頻遊戲的大型多樣化遊戲數據集。
此外,他們還用Unity創建的一個新環境,名為“the Construction Lab”。在這個環境中,智能體需要使用積木構建雕塑,這考驗它們對物體的操縱能力和對物理世界的理解。
數據收集包含多種方法,比如讓不同成對的人類玩傢的互動,其中一名玩傢觀察並指導另一名玩傢,以此來捕獲語言指令;讓玩傢自由玩遊戲,觀察他們的操作,並記錄下可能導致其遊戲行為的指令。
通過在不同的遊戲世界中學習,SIMA能夠將語言與遊戲行為相結合。
不需要訪問遊戲源代碼,也不需要定制API,僅需要兩個輸入:屏幕上的圖像和用戶提供的簡單的自然語言指令。
然後SIMA就會使用鍵盤和鼠標輸出來控制遊戲角色以執行這些指令,這一操作與人類類似,也就意味著SIMA有潛力與任何虛擬環境互動。
在評估測試中,研究人員表示SIMA在九個3D遊戲集上接受訓練,表現顯著優於僅在單個遊戲上專門訓練的智能體。
而且SIMA在未訓練過的遊戲中的表現和專門使用該遊戲數據集訓練過的智能體表現一樣好。
也就是說,SIMA在全新環境中具備泛化能力。
此外測試結果還顯示,SIMA的性能依賴於語言。在一個控制測試中,智能體沒有接受任何語言訓練或指令,它就會出現無目的的操作,不遵循指令。
而且,和人類玩傢相比較,SIMA水平還是差一點。