瑜伽球上訓練出來的機器狗比大多數健身者更能靈活運用訓練資源


這隻四足機器人搖搖晃晃地走著,在一個健身球上努力保持平衡,這是一個有趣的實驗,但其核心是,它證明像GPT-4這樣的人工智能可以訓練機器人執行復雜的實際任務,比我們人類更有效。

j923L7k5.jpg

DrEureka是一個任何人都可以獲取的開源軟件包,用於使用大型語言模型(LLM)(如ChatGPT 4)訓練機器人執行現實世界中的任務。這是一個"模擬到現實"系統,也就是說,它在虛擬環境中使用模擬物理原理對機器人進行教學,然後再在現實空間中實施。

吉姆-范(Jim Fan)博士是 DrEureka 的開發者之一,他部署的 Unitree Go1 四足機器人一躍成為頭條新聞。這是一款"低成本"、支持良好的開源機器人--這很方便,因為即使有人工智能,機器人寵物仍然很容易摔傷。至於"低成本",它在亞馬遜上的售價為 5899 美元,評分為 1 星……

DrEureka 中的"Dr"代表"領域隨機化",即在模擬環境中隨機化摩擦、質量、阻尼、重心等變量。

xNO8qWrW.jpg

隻需在 ChatGPT 等 LLM 中輸入一些提示,人工智能就能編寫代碼,創建一個獎勵/懲罰系統,在虛擬空間中訓練機器人,其中 0 = 失敗,高於 0 則為勝利。得分越高越好。

它可以通過最小化和最大化球的彈跳力、運動強度、肢體自由度和阻尼等方面的失效點/爆發點來創建參數。作為一個 LLM,它可以毫不費力地大量創建這些參數,供訓練系統同時運行。

每次模擬後,GPT 還可以反思虛擬機器人的表現,以及如何改進。如果超出或違反參數,例如電機過熱或試圖以超出其能力的方式銜接肢體,都將導致 0 分...沒有人喜歡得零分,人工智能也不例外。

MI2_qLgd.jpg

提示 LLM 編寫代碼需要安全指令--否則,研究小組發現 GPT 會努力追求最佳性能,會在沒有指導的情況下在模擬中"作弊"。這在模擬中沒有問題,但在現實生活中可能會導致電機過熱或肢體過度伸展,從而損壞機器人--研究人員稱這種現象為"退化行為"。

虛擬機器人自學成才的非自然行為的一個例子是,它發現自己可以更快地移動,方法是將臀部插入地面,用三隻腳拖著臀部在地板上竄來竄去。雖然這在模擬中是一種優勢,但當機器人在現實世界中嘗試時就尷尬。

圖片.png

因此,研究人員指示 GPT 要格外小心,因為機器人將在真實世界中接受測試--為此,GPT 創建安全功能,如平滑動作、軀幹方向、軀幹高度,並確保機器人的電機不會扭矩過大。如果機器人作弊,違反這些參數,其獎勵函數就會降低得分。安全功能可以減少退化和不自然的行為,比如不必要的骨盆推力。

那麼它的表現如何呢?比我們強。DrEureka 在訓練機器人"pooch"的過程中擊敗人類,在實際的混合地形中,它的前進速度和行進距離分別提高 34% 和 20%。

1715068530734.png

DrEureka 基於 GPT 的訓練系統在現實世界中輕松擊敗人類訓練的機器人

如何做到?研究人員認為,這與教學方式有關。人類傾向於課程式的教學環境--把任務分解成一個個小步驟,並試圖孤立地解釋它們,而 GPT 能夠有效地一次性傳授所有知識。這是我們根本無法做到的。

DrEureka 是同類產品中的首創。它能夠從模擬世界"零距離"進入現實世界。想象一下,在對周圍世界幾乎一無所知的情況下,你被推出巢穴,隻能自己摸索。這就是"零鏡頭"。

DrEureka 的創造者認為,如果他們能向 GPT 提供真實世界的反饋,就能進一步改進模擬到現實的訓練。目前,所有的模擬訓練都是利用機器人自身本體感覺系統的數據完成的,但如果 GPT 能夠通過真實世界的視頻畫面看到出錯的地方,而不是僅僅從機器人的日志中讀取執行失敗的信息,那麼它就能更有效地完善自己的指令。

人類平均需要一年半的時間才能學會走路,而大概隻有百分之一的人類能在瑜伽球上學會走路。

您可以在這裡觀看一段未經剪輯的 4 分 33 秒視頻,視頻中機器人狗狗輕松在瑜伽球上散步,且沒有停下來在消防栓上撒尿:


相關推薦

2023-06-14

上次是走梅花樁,這次是學真狗。專業術語說就是:將預訓練和強化學習技術應用到機器人控制領域。過去一段時間裡,騰訊機器狗Max學習真狗的動作,包括走、跑、跳、站立等,然後靈活運用這些姿態去解決新的各種障礙的任

2022-06-30

伯克利大學帶來的最新成果,讓機器人直接在實際環境中訓練學習,不再依賴於模擬器。應用這一方法,研究人員在短時間內訓練出瞭4個機器人。比如開頭看到的1小時學會走路的機械狗;還有2個機械臂,在8-10小時實戰抓取後

2024-03-18

模型,即從2023年10月開始使用自定義訓練堆棧在JAX和Rust上訓練,沒有針對特定任務(如對話)進行微調;Grok-1的一個獨特而基本的優勢是,它可以通過X平臺實時解世界,這使得它能夠回答被大多數其他AI系統拒絕的辛辣問題。Gr

2024-02-18

隊通過一種名為“好奇心驅動”的強化學習方法對它進行訓練。在這種學習模式下,機器狗被給予一個目標(比如開門),然後要自行探索如何完成整個任務。具體來說,它需要不斷探索和嘗試不同的行動序列,比如調整肢體的

2023-02-25

要多得多。具體來說,LLaMA-65B和LLaMA 33B是在1.4萬億個token上訓練的,而最小的模型LLaMA-7B是在1萬億個token上訓練的。這種方法的優勢在於,在更多的token上訓練的較小的模型,更容易重新訓練並針對特定的產品使用情況進行調整。

2022-07-21

者,他和同事們利用強化學習的方法,對這個機器狗進行訓練。研究人員使用一種名為“Dreamer”的算法,利用過去的經驗建立一個真實世界的模型,供機器人學習。上圖是機器人在30分鐘的樣子。“通常情況下,機器人在計算機

2023-08-17

務提供“動力”的許多大型語言模型都是在龐大的數據集上訓練出來的,而這些數據集可能包含未經原創作者許可從網絡上搜刮來的受版權保護或其他保護的資料。盡管如此,《紐約時報》也在今年2月與谷歌簽署一項價值1億美

2023-08-17

務提供“動力”的許多大型語言模型都是在龐大的數據集上訓練出來的,而這些數據集可能包含未經原創作者許可從網絡上搜刮來的受版權保護或其他保護的資料。盡管如此,《紐約時報》也在今年2月與谷歌簽署一項價值1億美

2023-08-16

務提供“動力”的許多大型語言模型都是在龐大的數據集上訓練出來的,而這些數據集可能包含未經原創作者許可從網絡上搜刮來的受版權保護或其他保護的資料。盡管如此,《紐約時報》也在今年2月與谷歌簽署一項價值1億美

2023-10-27

胡編亂造,比如說它設計用來搬箱子的機器人 Stretch 是為瑜伽而生的。"我們很高興能繼續探索人工智能與機器人技術的交叉點,"克林恩史密斯在波士頓動力公司網站的一篇文章中寫道。"這些模型(LLMs)可以幫助提

2024-02-06

索)時,就會出現誘發信號。這種方法的優點包括極簡的訓練以及高達60位/分鐘的高比特率,但這需要用戶始終關註刺激,從而限制其在現實生活中的適用性。而且,用戶在使用外源性BCI時會很快感到疲倦。在內源性腦機接口中

2022-10-01

為特斯拉積累 480 萬段數據,完成對 7.5 萬個神經網絡的訓練,實現 35 個FSD 版本的更迭。在 AI Day 後,特斯拉將發佈 FSD 10.69.2.3 版,這會是一次“令所有人吃驚”的更新,馬斯克同時再次確認 FSD beta 版今年底將在全球范圍內進行

2022-08-29

與波士頓動力的機器狗不同的是,麻省理工學院研發中的四足機器狗MiniCheetah更加的靈活,速度更加的快,日前據外媒報道,MiniCheetah目前時速能夠達到13~14公裡,比起2019年時的9公裡有相當大的進步。•目前世界不少高科技組

2023-03-14

像。月球是一個非常常見的目標,由於它被潮汐鎖定在地球上,所以很容易在月球圖像上訓練一個模型,並使用它來"填補"丟失的細節。因此這張圖更多的是人工智能在做工作,而不是相機的光學器件。三星的營銷團隊是