新出生的機器狗,打滾1小時後自己掌握走路,吳恩達開山大弟子最新成果


現在,讓機械狗自己打滾一個小時,它就能學會走路瞭!步態看著相當有模有樣,還能扛住大棍子的一通狂懟,就算是摔瞭個四仰八叉,翻個身自己又站起來瞭。

文/明敏

如此看來,訓機械狗和普通訓狗真是要沒什麼兩樣瞭啊。

這就是UC伯克利大學帶來的最新成果,讓機器人直接在實際環境中訓練學習,不再依賴於模擬器。

應用這一方法,研究人員在短時間內訓練出瞭4個機器人。

比如開頭看到的1小時學會走路的機械狗;

還有2個機械臂,在8-10小時實戰抓取後,表現接近於人類水平;

以及一個擁有計算機視覺的小機器人,在自己摸索2小時後,能絲滑地滾動到指定位置。

該研究由Pieter Abbeel等人提出,Pieter Abbeel是吳恩達的第一位博士生,前不久他剛剛獲得2021 ACM 計算獎(ACM Prize in Computing)。

目前,該方法的所有軟件基礎架構已經開源。

一個叫做“空想傢”的算法

本文方法的pipeline大致可分為4步:

第一步,是先把機器人放在真實環境裡,收集數據。

第二步,把這些數據傳輸到Replay Buffer。這一步驟就是利用歷史數據進行訓練、“總結經驗”,高效利用收集到的樣本。

第三步,World Model會對已有經驗進行學習,然後“腦補”出策略。

第四步,再用演員評論傢(Actor Critic)算法來提升策略梯度法的性能。

然後循環往復,將已經提煉出的辦法再使用到機器人身上,最後達到一種“自己摸索學習”的感覺。

具體來看,這裡的核心環節是World Model。

World Models是2018年由DAVID HA等人提出的一種快速無監督學習方式,獲得瞭NIPS 2018的Oral Presentation。

它的核心理念是認為人類是基於已有經驗,形成瞭一個心理世界模型,我們所做的決定和行動都是基於這個內部模型。

比如人類在打棒球時,做出反應的速度遠比視覺信息傳達到大腦中的快,那麼在這種情況下還能正確回球的原因,就是因為大腦已經做出瞭本能的預測。

此前,基於World Model這種“腦補”的學習方法,Google提出瞭Dreamer這種可擴展的強化學習方法。

這一次提出的方法是在此基礎上,叫做DayDreamer。

(貌似可以叫做空想傢?

具體來看,World Model就是一個智能體模型。

它包括一個視覺感知組件,能將看到的圖像壓縮成一個低維的表征向量作為模型輸入。

同時還有一個記憶組件,可以基於歷史信息,對未來的表征向量做出預測。

最後,還包括一個決策組件,它能基於視覺感知組件、決策組件的表征向量,決定采取怎樣的動作。

現在,我們回到本次UC伯克利學者提出的方法。

不難發現,其中World Model Learning部分的邏輯就是一個經驗積累的過程,Behavior Learning部分則是一個動作輸出的過程。

本篇論文方法的提出,主要解決瞭機器人訓練中兩方面的問題:

效率和準確率。

一般來說,訓練機器人的常規方法是強化學習,通過反復實驗來調整機器人的運作。

不過這種方法往往需要非常大量的測試,才能達到很好的效果。

不僅效率低下,而且訓練需要付出的成本也不低。

後來,不少人提出在模擬器中對機器人進行訓練,可以很好增效降本。

但是本文作者認為,模擬器訓練方法在準確性方面的表現還是不夠好,隻有真實的環境才能讓機器人達到最好的效果。

從結果來看,在訓練機器狗的過程中,隻花10分鐘時間,機器狗就能適應自己的行為瞭。

和SAC方法對比來看,效果有明顯提升。

在機械臂訓練過程中,這一新方法還克服瞭視覺定位和稀疏獎勵的挑戰,幾小時內的訓練成果明顯優於其他方法。

研究團隊

值得一提的是,本次帶來新成果的研究團隊成員,也非常令人矚目。

其中,Pieter Abbeel是吳恩達的開山大弟子。

他現在是UC伯克利電氣工程和計算機科學教授,伯克利機器人學習實驗室主任,伯克利AI研究院共同主任,曾加入過OpenAI。

前不久,他還獲得瞭2021 ACM 計算獎(ACM Prize in Computing),以表彰其在機器人學習方面的貢獻。

與此同時,他還是AI機器人公司Covariant的聯合創始人。

另一位Ken Goldberg,也是AI領域的頂級專傢。

他現在是UC伯克利工程教授,研究方向為強化學習、人機交互等。

2005年,他被評選為IEEE院士。

與此同時,Goldberg還是一位藝術傢,是UC伯克利藝術、科技文化研討會的奠基人。

此外,Philipp Wu、Alejandro Escontrela、Danijar Hafner三人為共同一作。

其中Philipp Wu還隻是UC伯克利一位大四的學生。

One More Thing

在觀看機械狗訓練的視頻時,我們發現研究人員使用的Unitree機械狗,

這個品牌來自中國企業宇樹科技,之前登上過春晚的機器小牛,也來自它傢。

而且,最近宇樹機器狗集體進行Go1測試的視頻曝光,還在國外火瞭一波。

論文地址:

https://danijar.com/project/daydreamer/

參考鏈接:https://worldmodels.github.io/


相關推薦

2022-07-21

化學習將成為未來機器人操控的基礎工具。上圖是40分鐘的機器人。在這項研究中所用的機器學習類型,其實是通過獎勵機器在環境中采取某些行動的方式,對其算法進行訓練。哈夫納和他的合作者——菲利普·吳(Philipp Wu)和

2022-07-20

菲利克斯·魯珀特(Felix Ruppert)。魯珀特說:“我們研究的機器狗Morti具有跟動物相同的反射能力,可以自主從失敗中學習如何走路。”▲機器狗Morti一、摔倒後再爬起,Morti可模仿動物學習人類和動物的脊髓中都有一個叫做CPG(

2022-10-23

團之前,它還會跳芭蕾舞和機械舞。要知道在它2009年剛出生的時候,還需要連著電纜,被吊著行走。西英格蘭大學機器人教授Alan Winfield曾表示,Altas象征著目前地球上最頂尖的機器人技術。為做出這些機器人,雷波特會花大量

2023-11-01

成逼真場景、提供智能建議,結合語言和圖像處理來充當機器人的“大腦”。人工智能的進步非常迅速,令人驚訝,並且可能會繼續令人驚訝。當前的深度學習系統仍然缺乏重要的能力,我們不知道開發它們需要多長時間。然而

2023-11-03

大規模的災難。從很長的時間尺度內(數百年)來講,低出生率/人口崩潰導致人類長期緩慢衰退也是可能的。與這些風險相比,惡意的AGI殺死80億人的想法似乎不那麼明顯,也更加遙遠。人類智力和AI的結合能夠幫我們更好地解

2024-02-18

關註:瑞士蘇黎世聯邦理工學院(ETH)推出一款全新研制的機器狗,自稱是“機器狗界的變形金剛”。它可以“既當人又當狗”(bushi),在爬行和直立兩種模式之間靈活轉換。這是來自一傢頗受關註的Swiss-Mile公司最新成果,它

2023-11-02

巨頭中的二位:LeCun 和 Hinton 。還有一位則是深度學習和機器學習的先驅者,Google大腦創始人之一的吳恩達。率先打響第一槍的,是斯坦福副教授吳恩達,他在 X 上寫一條推文。他的立場很明確,就是——嚴格監管AI ,根本不利

2024-05-08

Eureka 基於 GPT 的訓練系統在現實世界中輕松擊敗人類訓練的機器人如何做到?研究人員認為,這與教學方式有關。人類傾向於課程式的教學環境--把任務分解成一個個小步驟,並試圖孤立地解釋它們,而 GPT 能夠有效地一次性傳

2024-04-22

積累( 05 年的 BigDog 機器狗就是液壓驅動 ),所以 Atlas 出生就帶著液壓驅動的基因。2013 年,液壓 Atlas 首秀就直接把其他人形機器人給拉爆。有些人形機器人十年後才堪堪能在平地上緩慢移動,但液壓 Atlas 十年前就已經能在石

2024-04-12

亞馬遜周四將計算機科學傢吳恩達(AndrewNg)納入其董事會。吳恩達曾領導Alphabet旗下谷歌和中國百度的人工智能項目,目前大型科技公司之間為增加GenAI產品用戶而展開的競爭日益激烈。亞馬遜的雲部門正面臨著微軟與 ChatGPT 制造

2023-03-30

。正如 Hinton 擔心的那樣,如果我們失去對可以自我改進的機器的控制會發生什麼。我不知道我們什麼時候會有這樣的機器,但我知道我們對目前的人工智能沒有足夠的控制,尤其是現在人們可以把它們與現實世界的軟件 API 連

2024-04-17

的十年時間裡,Atlas激發我們的想象力,啟發一代又一代的機器人人才,在技術領域突破眾多障礙。現在,是時候讓我們的液壓機器人Atlas好好休息一下。”屏幕前,數十萬觀眾淚目。視頻才放出12個小時,就已經有36萬的觀看。

2024-02-06

,通過自己開發的腦機接口(BCI)設備,控制波士頓動力的機器狗Spot。狗狗可以按照人類的想法,移動到特定區域、幫人拿東西、或者拍照等。而且,相比於之前需要使用佈滿傳感器的頭套才能“讀心”,本次的腦機接口設備

2022-09-30

lektro擁有更多功能。但其本質仍是以內部的控制單元為主的機器,隻不過是通過增加四肢和頭部讓他們看起來像人,以此來進行商業宣傳。畢竟能夠像人類一樣行動和完成各種工作的機器人,已經足以讓人們為其驚嘆。時間來到