用世界模型訓練機器狗:1小時學會走路、翻身和通過障礙物


北京時間7月21日上午消息,據英國《每日郵報》報道,美國加州大學伯克利分校的研究人員近日公佈一款機器狗,可以在一小時內學會走路和翻身,甚至能通過特定的障礙物。在研究人員發佈的一段視頻中,可以看到這隻機器狗一開始隻能在地上掙紮,四條腿不斷在空中揮舞。

美國加州大學伯克利分校的研究人員近日公佈一款機器狗,可以在一小時內學會走路和翻身,甚至能通過特定的障礙物。

然而,僅僅10分鐘之後,它就可以走上幾步;一個小時後,它的步伐就變得輕松很多,甚至在被一位研究人員用棍子推倒之後,還能自己翻身爬起來,繼續導航並行走到預定目標。

與許多機器人不同的是,研究人員並沒有事先在計算機模擬系統中向這個機器狗發佈指令。丹尼爾·哈夫納(Danijar Hafner)是美國加州大學伯克利分校的人工智能研究者,他和同事們利用強化學習的方法,對這個機器狗進行訓練。

研究人員使用一種名為“Dreamer”的算法,利用過去的經驗建立一個真實世界的模型,供機器人學習。上圖是機器人在30分鐘的樣子。

“通常情況下,機器人在計算機模擬系統中會通過大量的試錯來學習,這比實時學習要快得多。”哈夫納解釋道,“在模擬中解決站立和行走等任務後,學習到的行為才會在一個物理機器上運行。但模擬無法捕捉現實世界的復雜性,因此在模擬中表現良好的行為可能無法解決現實世界中的任務。”

一位與該研究無關的科學傢表示,強化學習將成為未來機器人操控的基礎工具。上圖是40分鐘的機器人。

在這項研究中所用的機器學習類型,其實是通過獎勵機器在環境中采取某些行動的方式,對其算法進行訓練。哈夫納和他的合作者——菲利普·吳(Philipp Wu)和亞歷杭德羅·埃斯康特雷拉(Alejandro Escontrela)——使用一種名為“Dreamer”的算法,可以根據過去的經驗來構建一個真實世界的模型,並允許機器人進行試錯運算。

“Dreamer算法最近展現出巨大的前景,它可以通過在一個學習世界模型中制定計劃,從少量的互動中學習。”研究人員在論文中寫道,“學習一個世界模型來預測潛在行動的結果,可以在想象中進行計劃,從而減少在現實環境中所需的試錯次數。”該論文於近期發表在預印本網站arxiv.org上,尚未經過同行評議。

1個小時後,圖中的這款機器狗已經能很好地導航、行走,還能自己翻身。

在機器狗學會走路後,它還可以學會適應其他不可預測的結果,比如被研究人員用棍子戳倒。強化學習已經使機器人在棋類和電子遊戲等方面大大超過人類,但教會機器人在現實世界中做出正確的行動依然極具挑戰性。歸根結底,這是因為工程師們必須根據科學傢是否希望這種行為得到獎勵來進行編程。

“將強化學習應用到實體機器人上是一個巨大的挑戰,因為我們無法加快現實世界中的時間,而機器人模擬器往往無法足夠準確地捕捉現實世界。”研究人員解釋道。

“我們的項目表明,學習世界模型可以大大加快機器人在物理世界中的學習速度。這將使強化學習更接近於解決復雜的自動化任務,比如制造和組裝任務,甚至是自動駕駛汽車。”

研究團隊在論文中列舉這類技術所面臨的其他障礙,表示盡管Dreamer算法展示很有前景的結果,但在硬件上進行長時間的學習會給機器人造成磨損,可能需要人類的幹預或修復。上圖中,機器狗正在通過障礙物

萊雷爾·平托(Lerrel Pinto)是紐約大學的計算機科學助理教授,致力於研究機器人和機器學習,他補充道:“機器人學傢需要為他們希望機器人解決的每一個任務(或)問題進行這樣的訓練。”這將意味著大量的代碼和一系列根本無法預測的情況。

研究團隊在論文中列舉這類技術所面臨的其他障礙。“盡管Dreamer算法展示很有前景的結果,但在硬件上進行長時間的學習會給機器人造成磨損,可能需要人類的幹預或修復。”他們在研究摘要中寫道,“此外,通過更長時間的訓練,我們需要做更多的工作來探索Dreamer算法的極限和我們的基線。”

“最後,我們認為,將快速真實世界學習和模擬器的優勢潛在地結合在一起,以解決更具挑戰性的任務,將是一個影響深遠的未來研究方向,”研究人員補充道。

哈夫納希望未來能教會機器狗服從人類的口頭指令,或許還能在機器狗身上安裝攝像頭,讓它具有視覺能力。通過這些改進,研究人員希望這款機器狗最終能做到一些更典型的狗類行為,比如把丟出去的東西撿回來。

在另一項獨立進行的新研究中,德國馬克斯·普朗克智能系統研究所(MPI-IS)的研究人員開發一款名為“Morti”的機器狗,它的腳上安裝有傳感器,可以通過一種包含傳感器數據的復雜算法輕松學習走路。

德國馬克斯·普朗克智能系統研究所的科學傢們利用算法訓練一款名為Morti的機器狗,使其學會走路

“作為工程師和機器人學傢,我們希望制造一個具有動物一樣的反射能力,並能從錯誤中學習的機器人,從中尋找答案。” MPI-IS動態運動研究小組的前博士生菲利克斯·魯珀特(Felix Ruppert)在一份聲明中說,“對一隻動物而言,跌倒能算是一個錯誤嗎?如果隻發生一次的話就不算;但如果它經常跌倒,那就是錯誤。這就讓我們能以某種方法來解機器人行走的情況。”

機器狗Morti通過一種復雜的算法來指導自己進行學習。來自足部傳感器的信息與機器脊髓模型的數據相匹配,而脊髓模型可以在機器人的計算機中作為程序運行。機器狗通過不斷比較設定和預期的傳感器信息、運行反射回路並調整其運動方式來學習走路。

波士頓動力公司的迷你機器狗SpotMini

在2017年11月發佈的一段視頻中,美國波士頓動力公司首次展示其開發的最先進的機器狗SpotMini。在此之前,該公司還發佈一款1.7米高的人形機器人,名為“Atlas”。此次發佈的是機器狗Spot的“輕量級”新版本。

視頻中,這隻機器狗在院子裡“撒歡似的”小跑。波士頓動力公司在其網站上寫道:“Spot是一款小型的四足機器狗,很適用於辦公室或傢庭環境。”它的重量為25公斤,加上機械臂後的重量則為30公斤。

美國波士頓動力公司的機器狗SpotMini在草坪上“撒歡”小跑

該公司稱,Spot是一款全電動機器狗,充電後可以運行約90分鐘,具體時長取決於它在做什麼。此外,Spot也非常安靜,被波士頓動力公司稱為其“制造的最安靜的機器人”。Spot於2016年首次亮相,之前的一款迷你版Spot有一個可伸長的“脖子”,看起來十分怪異。不過,在該公司之前的一段視頻中,這款機器狗已經可以幫忙做傢務。

從這段視頻中可以看到,機器狗走出波士頓動力公司總部,進入一棟住宅。在那裡,機器狗利用可彎曲伸長的脖子將杯子放入洗碗機,還把一個罐子扔進垃圾桶。有一次它踩到掉在地上的香蕉皮,摔一跤,但利用可伸縮的脖子,它又重新站起來。

波士頓動力公司的機器狗Spot利用可彎曲伸長的脖子將杯子放入洗碗機

波士頓動力公司表示,機器狗Spot安裝有多種傳感器,包括深度攝像頭、固態陀螺(IMU)和四肢上的本體感覺傳感器。這些傳感器有助於機器狗的導航和運動操作。Spot還可以自主執行一些任務,但通常需要人類進行高級別的指導。


相關推薦

2022-06-30

的核心理念是認為人類是基於已有經驗,形成瞭一個心理世界模型,我們所做的決定和行動都是基於這個內部模型。比如人類在打棒球時,做出反應的速度遠比視覺信息傳達到大腦中的快,那麼在這種情況下還能正確回球的原因

2024-05-08

用大型語言模型(LLM)(如ChatGPT 4)訓練機器人執行現實世界中的任務。這是一個"模擬到現實"系統,也就是說,它在虛擬環境中使用模擬物理原理對機器人進行教學,然後再在現實空間中實施。吉姆-范(Jim Fan)博士是

2023-06-14

肖。值得一提的是,騰訊機器狗Max整個學習過程都在虛擬世界裡面訓練而成,不需要進行實機訓練和調整。它還特地學習策略層面知識的網絡參數,這個參數可以讓它學會遊戲規則、懂思考、懂判斷。能像動物般地玩遊戲。騰訊

2022-07-20

斯普朗克智能系統研究所(MPI-IS)發明一隻有四條腿的小機器狗Morti,它可以在每次跌倒後調整走路姿態,自主學習如何行走。編譯 | 夏舍予編輯 | 徐珊闡明該技術的論文《Learning Plastic Matching of Robot Dynamics in Closed-loop Central Patter

2024-02-18

隊通過一種名為“好奇心驅動”的強化學習方法對它進行訓練。在這種學習模式下,機器狗被給予一個目標(比如開門),然後要自行探索如何完成整個任務。具體來說,它需要不斷探索和嘗試不同的行動序列,比如調整肢體的

2024-02-06

戶使用計算機進行通信的眼睛凝視設備。允許用戶與周圍世界互動的系統並不多。這種BCI四足機器人系統作為一個早期的原型,為現代個人助理機器人的未來發展鋪平道路。希望在未來的迭代中,我們能看到更加驚人的能力。腦

2024-04-01

得很遠。未來,如果人類真的要生活在一個充滿機器人的世界之中,機器人必須要有像人類一樣能自主通過面部表情獲取人類的信任的能力。顯然,設計一款不僅能做出各種面部表情,還能知道何時表現的機器人,一直是一項艱

2024-05-06

機器如何能像人類和動物一樣高效地學習?機器如何學習世界運作方式並獲得常識?機器如何學習推理和規劃……當一系列問題被提出時,有人回答自回歸LLM足以勝任。然而,知名AI學者、圖靈獎得主YannLeCun並不這麼認為,他一

2024-03-14

Corey Lynch 的 XOpenAI 的模型的多模態能力,是機器人可以與世界交互的關鍵,我們能夠從視頻中展示中看到許多類似的瞬間,比如:描述一下它的周圍環境。做出決定時使用常識推理。例如,“桌子上的盤子和杯子等餐具接下來很

2024-06-14

快科技6月14日消息,日前,有網友分享中國公司研發的機器狗,與波士頓動力機器狗爬樓梯的比賽視頻,引起網友關註。視頻中,這條中國機器狗爬樓梯的速度明顯更快,且腳部輕盈,不一會就爬上樓梯平層,領先波士頓機器狗

2023-01-31

目標情況自主從庫中選擇相應的動作執行。同時,Atlas的模型預測控制器(MPC)會調整其發力、姿勢、動作發生時機等細節,來應對環境、腳滑等各種可能實時出現的因素。並且,MPC還允許Atlas跨行為邊界預測下一步的行動,比

2022-08-12

真正做到不僅看得到也能看得懂。但相比於機器狗,人的世界中信息量級堪稱爆炸。就以簡單的路徑規劃為例,目前最全面、技術難度最高的路徑規劃為自動駕駛路徑規劃。智能汽車路徑規劃除解決機器人從A點到B點外,還需要

2022-10-01

中。在機器人視角的渲染圖中,它能夠用顏色區分開現實世界中的不同物體。如它手持的長條形物體是紫色、工作臺是黃色等。▲特斯拉Optimus搬運工廠貨物隨後,特斯拉推一個更接近真人的版本的Optimus,看上去和去年AI DAY上展

2024-03-02

,是軟件層面的重要補足,讓機器人能夠從語義層面理解世界,理解和回應用戶的需求和指令。機器人技術與 AI 是相互關聯的領域,AI 可以被用於開發新的機器人控制系統,而機器人能與真實的物理世界進行互動,收集數據,