在世界自動化領域,還有無數的大問題有待解決,而機器人學習就在接近塔頂的地方。雖然人類確實在為特定任務的系統編程方面已經相當出色,但還有一個巨大的、開放的問題:然後呢?
今天上午在紐約市舉行的Google人工智能活動上展示的新研究提出讓機器人系統有效地編寫自己的代碼的概念。這個概念旨在為人類開發者省去在新信息出現時不得不進去重新編程的麻煩。
該公司指出,現有的研究和訓練有素的模型可以有效地實現這一概念。所有這些工作都可以證明是開發系統的基礎,這些系統可以根據現實世界中遇到的對象和場景繼續生成自己的代碼。今天展示的新作品是代碼即政策(CaP)。
Google研究實習生Jacky Liang和機器人研究科學傢Andy Zeng在一篇博文中指出:
通過CaP,我們提議使用語言模型,通過提示直接編寫機器人代碼。我們的實驗證明,與直接學習機器人任務和輸出自然語言動作相比,輸出代碼可以更加泛化以及帶來任務性能的提高。CaP允許單一系統執行各種復雜多樣的機器人任務,而不需要特定的任務訓練。
如上所述,該系統還依賴於第三方庫和API,以最佳方式生成適合特定場景的代碼--以及對語言和表情符號的支持。這些API中可獲取的信息是目前現有的限制之一。研究人員指出:"這些限制指出未來工作的途徑,包括擴展視覺語言模型以描述低級別的機器人行為(如軌跡),或將CaPs與探索算法相結合,可以自主地增加控制基元的集合"。
作為今天公告的一部分,Google將發佈一個可通過其GitHub網站訪問的代碼的開源版本,以建立其迄今為止提出的研究:
https://code-as-policies.github.io/