用世界模型訓練機器狗：1小時學會走路、翻身和通過障礙物

2022-07-21 來自新浪科技發表於業界精選

北京時間7月21日上午消息，據英國《每日郵報》報道，美國加州大學伯克利分校的研究人員近日公佈一款機器狗，可以在一小時內學會走路和翻身，甚至能通過特定的障礙物。在研究人員發佈的一段視頻中，可以看到這隻機器狗一開始隻能在地上掙紮，四條腿不斷在空中揮舞。

美國加州大學伯克利分校的研究人員近日公佈一款機器狗，可以在一小時內學會走路和翻身，甚至能通過特定的障礙物。

然而，僅僅10分鐘之後，它就可以走上幾步；一個小時後，它的步伐就變得輕松很多，甚至在被一位研究人員用棍子推倒之後，還能自己翻身爬起來，繼續導航並行走到預定目標。

與許多機器人不同的是，研究人員並沒有事先在計算機模擬系統中向這個機器狗發佈指令。丹尼爾·哈夫納（Danijar Hafner）是美國加州大學伯克利分校的人工智能研究者，他和同事們利用強化學習的方法，對這個機器狗進行訓練。

研究人員使用一種名為“Dreamer”的算法，利用過去的經驗建立一個真實世界的模型，供機器人學習。上圖是機器人在30分鐘的樣子。

“通常情況下，機器人在計算機模擬系統中會通過大量的試錯來學習，這比實時學習要快得多。”哈夫納解釋道，“在模擬中解決站立和行走等任務後，學習到的行為才會在一個物理機器上運行。但模擬無法捕捉現實世界的復雜性，因此在模擬中表現良好的行為可能無法解決現實世界中的任務。”

一位與該研究無關的科學傢表示，強化學習將成為未來機器人操控的基礎工具。上圖是40分鐘的機器人。

在這項研究中所用的機器學習類型，其實是通過獎勵機器在環境中采取某些行動的方式，對其算法進行訓練。哈夫納和他的合作者——菲利普·吳（Philipp Wu）和亞歷杭德羅·埃斯康特雷拉（Alejandro Escontrela）——使用一種名為“Dreamer”的算法，可以根據過去的經驗來構建一個真實世界的模型，並允許機器人進行試錯運算。

“Dreamer算法最近展現出巨大的前景，它可以通過在一個學習世界模型中制定計劃，從少量的互動中學習。”研究人員在論文中寫道，“學習一個世界模型來預測潛在行動的結果，可以在想象中進行計劃，從而減少在現實環境中所需的試錯次數。”該論文於近期發表在預印本網站arxiv.org上，尚未經過同行評議。

1個小時後，圖中的這款機器狗已經能很好地導航、行走，還能自己翻身。

在機器狗學會走路後，它還可以學會適應其他不可預測的結果，比如被研究人員用棍子戳倒。強化學習已經使機器人在棋類和電子遊戲等方面大大超過人類，但教會機器人在現實世界中做出正確的行動依然極具挑戰性。歸根結底，這是因為工程師們必須根據科學傢是否希望這種行為得到獎勵來進行編程。

“將強化學習應用到實體機器人上是一個巨大的挑戰，因為我們無法加快現實世界中的時間，而機器人模擬器往往無法足夠準確地捕捉現實世界。”研究人員解釋道。

“我們的項目表明，學習世界模型可以大大加快機器人在物理世界中的學習速度。這將使強化學習更接近於解決復雜的自動化任務，比如制造和組裝任務，甚至是自動駕駛汽車。”

研究團隊在論文中列舉這類技術所面臨的其他障礙，表示盡管Dreamer算法展示很有前景的結果，但在硬件上進行長時間的學習會給機器人造成磨損，可能需要人類的幹預或修復。上圖中，機器狗正在通過障礙物

萊雷爾·平托（Lerrel Pinto）是紐約大學的計算機科學助理教授，致力於研究機器人和機器學習，他補充道：“機器人學傢需要為他們希望機器人解決的每一個任務（或）問題進行這樣的訓練。”這將意味著大量的代碼和一系列根本無法預測的情況。

研究團隊在論文中列舉這類技術所面臨的其他障礙。“盡管Dreamer算法展示很有前景的結果，但在硬件上進行長時間的學習會給機器人造成磨損，可能需要人類的幹預或修復。”他們在研究摘要中寫道，“此外，通過更長時間的訓練，我們需要做更多的工作來探索Dreamer算法的極限和我們的基線。”

“最後，我們認為，將快速真實世界學習和模擬器的優勢潛在地結合在一起，以解決更具挑戰性的任務，將是一個影響深遠的未來研究方向，”研究人員補充道。

哈夫納希望未來能教會機器狗服從人類的口頭指令，或許還能在機器狗身上安裝攝像頭，讓它具有視覺能力。通過這些改進，研究人員希望這款機器狗最終能做到一些更典型的狗類行為，比如把丟出去的東西撿回來。

在另一項獨立進行的新研究中，德國馬克斯·普朗克智能系統研究所（MPI-IS）的研究人員開發一款名為“Morti”的機器狗，它的腳上安裝有傳感器，可以通過一種包含傳感器數據的復雜算法輕松學習走路。

德國馬克斯·普朗克智能系統研究所的科學傢們利用算法訓練一款名為Morti的機器狗，使其學會走路

“作為工程師和機器人學傢，我們希望制造一個具有動物一樣的反射能力，並能從錯誤中學習的機器人，從中尋找答案。” MPI-IS動態運動研究小組的前博士生菲利克斯·魯珀特（Felix Ruppert）在一份聲明中說，“對一隻動物而言，跌倒能算是一個錯誤嗎？如果隻發生一次的話就不算；但如果它經常跌倒，那就是錯誤。這就讓我們能以某種方法來解機器人行走的情況。”

機器狗Morti通過一種復雜的算法來指導自己進行學習。來自足部傳感器的信息與機器脊髓模型的數據相匹配，而脊髓模型可以在機器人的計算機中作為程序運行。機器狗通過不斷比較設定和預期的傳感器信息、運行反射回路並調整其運動方式來學習走路。

波士頓動力公司的迷你機器狗SpotMini

在2017年11月發佈的一段視頻中，美國波士頓動力公司首次展示其開發的最先進的機器狗SpotMini。在此之前，該公司還發佈一款1.7米高的人形機器人，名為“Atlas”。此次發佈的是機器狗Spot的“輕量級”新版本。

視頻中，這隻機器狗在院子裡“撒歡似的”小跑。波士頓動力公司在其網站上寫道：“Spot是一款小型的四足機器狗，很適用於辦公室或傢庭環境。”它的重量為25公斤，加上機械臂後的重量則為30公斤。

美國波士頓動力公司的機器狗SpotMini在草坪上“撒歡”小跑

該公司稱，Spot是一款全電動機器狗，充電後可以運行約90分鐘，具體時長取決於它在做什麼。此外，Spot也非常安靜，被波士頓動力公司稱為其“制造的最安靜的機器人”。Spot於2016年首次亮相，之前的一款迷你版Spot有一個可伸長的“脖子”，看起來十分怪異。不過，在該公司之前的一段視頻中，這款機器狗已經可以幫忙做傢務。

從這段視頻中可以看到，機器狗走出波士頓動力公司總部，進入一棟住宅。在那裡，機器狗利用可彎曲伸長的脖子將杯子放入洗碗機，還把一個罐子扔進垃圾桶。有一次它踩到掉在地上的香蕉皮，摔一跤，但利用可伸縮的脖子，它又重新站起來。

波士頓動力公司的機器狗Spot利用可彎曲伸長的脖子將杯子放入洗碗機

波士頓動力公司表示，機器狗Spot安裝有多種傳感器，包括深度攝像頭、固態陀螺（IMU）和四肢上的本體感覺傳感器。這些傳感器有助於機器狗的導航和運動操作。Spot還可以自主執行一些任務，但通常需要人類進行高級別的指導。

用世界模型訓練機器狗：1小時學會走路、翻身和通過障礙物

相關推薦

新出生的機器狗，打滾1小時後自己掌握走路，吳恩達開山大弟子最新成果

瑜伽球上訓練出來的機器狗比大多數健身者更能靈活運用訓練資源

騰訊機器狗Max大升級：學真狗惟妙惟肖

機器狗一小時就能學會走路？模仿動物本能，研究已登Nature子刊

機器狗界變形金剛來：“人”狗之間靈活切換

AI讀心術再升級一副眼鏡直接控制波士頓機器狗

哥大團隊開發“人臉機器人” 照鏡子自主模仿人類表情超逼真

LeCun哈佛演講PPT放出：唱衰自回歸LLM 指明下一代AI方向

隻用13天 OpenAI做出能聽、能說、能自主決策的機器人大模型

中國機器狗爬樓梯完勝波士頓動力網友調侃：小黃好像喝酒走不穩

波士頓動力的搬磚機器人私下竟“翻車”不斷

小米造“人”比特斯拉還快：首款全尺寸人形仿生機器人CyberOne發佈

特斯拉人形機器人能搬快遞！FSD年底可全球推送

OpenAI、英偉達重金下註這傢機器人公司憑什麼估值26億美元