疊衣服、擦案板、沖果汁……能做傢務的國產機器人終於要來


還記得會炒菜的斯坦福ALOHA機器人嗎?現在,中國的初創公司自變量機器人(XSquare)展示同樣令人驚艷的能力,甚至更進一步。在該公司最新展示的Demo中,完全基於大模型自主推理的雙臂機器人,利用低成本硬件即實現對不規則物體的精細操作(如抓握、拾取、切割等),以及折疊衣服、沖泡飲料等復雜任務,展現出相當程度的泛化性能。


折疊衣物(3 倍速播放):對柔性物體的操作長久以來都是困擾整個 manipulation 領域的難題,需要高度靈活的操作和精細的動作協調。


切火腿(2 倍速播放):復雜的摩擦和阻力,難以用傳統方法快速建模,需要精確的力度控制與物體定位。


切黃瓜,2 倍速播放:在一種物體上習得的能力直接泛化到不同物體的操作上。


用海綿擦掉案板上的污漬(2 倍速播放):自修正的 close loop 控制能力,在不同壓力和表面條件下的精細力度控制,實時檢測並調整擦拭動作,確保徹底清潔污漬。


用勺子從罐子裡取出適量的果汁粉(3 倍速播放):使用工具的過程中,處理復雜的摩擦一直以來都是極大難點。


沖果汁,舉起水壺往杯中倒入適量的水(3 倍速播放) :流體引入大量的隨機性,準確操作非常困難。

這傢去年底成立的公司,匯聚來自世界著名人工智能 / 機器人學實驗室以及國內外頂尖高校的優秀人才,擁有雄厚的科研背景。公司的目標是“將人類從無意義的體力勞動中解放出來”,專註於機器人領域的基礎模型(foundation model)研發。

目前,團隊正在構建一個具備從感知到行動的端到端能力的通用機器人大模型(“中樞神經”),目標是能夠控制低成本硬件(如數千元的機械臂),完成包括烹飪、打掃衛生在內的日常傢務,並在未來擴展到照顧老人和小孩等更復雜的傢庭護理工作,以及完成其他達到人類水平的通用操作任務。

基於具身智能大模型,開發通用機器人平臺

盡管機器人管傢是人類對智能未來最具代表性的暢想,但在現實生活中,能夠勝任傢務勞動的通用服務機器人幾十年來的發展一直困難重重。傢庭環境的多樣性和不可預測性要求機器人具備高度復雜的感知能力、靈活精確的機械操作、智能的決策和規劃,以及有效的人機交互能力。此外,技術的集成、機器人的安全性、續航能力、成本等,也是必須克服的重要障礙。

傳統的機器人通常采用基於規則和單一任務環境的方式,很難根據環境變化自主調整策略,從長遠看也幾乎不可能規模化。大語言模型(LLM)等人工智能技術的突破,為機器人領域帶來新的曙光。Google的 RT-2 系統將視覺-語言-動作模型與機器人技術相結合,使機器人能夠處理復雜場景,並響應人類的指令。DeepMind 的 AutoRT 系統則使用視覺-語言模型(VLM),幫助機器人適應未知環境,並利用 LLM 來為機器人提供指令。大模型在知識遷移和泛化方面的這些優勢,有望幫助機器人逼近甚至超越人類的水平。

X Square 認為,目前機器人領域正處於技術的代際更迭之際。 斯坦福 ALOHA 等項目表明,通用機器人發展的瓶頸在於智能而非硬件。事實上,機器人領域長期以來面臨的兩大困難,一是如何在復雜環境中精確感知並做出精細的操作(low level 智能),二是缺乏類似人類的推理、規劃、交互等高級認知能力(high level 智能)。從感知到行動,機器人的智能可以被視為一個從 high level 逐步到 low level 的決策過程。

大模型的出現為解決上述難題帶來新思路。運用 LLM 或 VLM 來進行高階推理與規劃、與人交互,已經成為業界公認的發展方向。

但是,直接用單一的大模型來驅動端到端的機器人 manipulation,目前嘗試的團隊還不多。

X Square 的獨特之處便在於此,團隊基於過往在模型、算法、系統、硬件等方面的科研成果積累,集合所有技能訓練“機器人 Large Manipulation Model”,從手部操作切入,基於具身大模型來構建可以精細操作的通用機器人。

團隊希望結合 high-level 的推理規劃模型與 low-level 的操作控制模型,打造一個類似“機器人大腦-小腦”的通用操作系統。

“我們公司名為 X Square,寓意要同時在 high level 推理和 low level 控制這兩個維度做大模型,並把兩者有機結合。目前我們在兩個方向都已有不錯的基礎,有信心在一年內從追趕到超越目前的世界領先水平。”


X Square 指出:“與腿的移動能力相比,手的操作能力包含更豐富和復雜的動作,要求更高級別的控制精度。人類手部的精細操作是我們智能的根本表現。”

不同於很多人形機器人公司關註對人體形態的模仿,X Square 更關註實現接近人類的功能。“采用輪式移動底盤搭配雙臂,可以大幅降低成本,2-3 年內整體硬件成本有望降至 1 萬美元以下,我們認為放棄 5% 的人形功能來換取數量級的成本優勢是值得的。”

軟硬件一體,驅動數據飛輪

“我們希望模型擁有怎樣的能力,就需要提供給模型什麼樣的數據。是數據,而非算法或結構決定模型的能力,這是當今時代的核心方法論。”

機器人的特殊性在於,它是一個具有前所未有復合性的綜合系統。相比純軟件的 LLM 和多模態大模型,具身智能大模型雖然在規模上暫時無法與之相比,但在工程上難度要高出許多,它必須在海量的真實和模擬場景中不斷實踐、學習。因此,能否找準技術方向,在降低開發成本和提高迭代效率的同時,打造高質量的數據采集能力,控制試錯成本,最終實現規模化,是決定成敗的關鍵因素。

這對團隊軟硬一體的能力提出很高的要求,因為是否具有足夠的軟硬結合能力,在機器人這一多模態集中融合的領域直接關系到迭代速度與數據質量。軟硬件一體發展,是 X Square 的核心理念。無論是機器人本體的形態設計,還是數據采集系統,都是為機器人“中樞神經系統”的開發在服務。

在模型算法設計上,X square 也有自己獨特的理解和創新。“除需要有專門的數據,還需要針對性的結構設計和訓練方法,不能單純套用其他領域的大模型經驗,因為它必須直接面對復雜的真實世界,要在真實世界中不斷實踐、迭代。”

同時,由於大模型與傳統 deep learning for robotics 具有相當的 gap,是否真正具備足夠的大模型訓練落地經驗,決定能否快速構建通用具身智能大模型。這也正是 X Square 的優勢所在。

“目前語言大模型的訓練預測架構在機器人上不完全work,以 Transformer 為底座算法模型不能很好地支持因果關系的推理,而因果性在機器人所在的物理世界中大量出現,並在機器人操作中起關鍵作用。為處理因果性,目前有很多 world model 的嘗試。但當前的世界模型要麼完全集中在圖像 / 視頻重建上(如 Sora),要麼完全集中在高層語義理解上,缺乏適合機器人的形態。”

X Square 篤定機器人大模型這個方向,一方面是基於團隊成員親歷深度學習從被質疑到一統江湖,以及 LLM 從默默無聞到大放異彩的技術浪潮,另一方面,也是看好中國作為全球硬件中心,擁有得天獨厚的產業鏈優勢,也有利於快速縮短機器人的研發周期。

團隊在不到 3 個月的時間裡,就完成技術架構的搭建和早期模型的訓練,展現出驚人的成長速度和卓越的工程能力。

“在現階段,我們也積極尋求與上下遊合作夥伴的協作,實現智能的迭代升級。未來,隨著具身智能大模型技術的日益成熟,我們會更聚焦於特定應用場景,推出自己的機器人產品,例如能完成做飯、打掃等復雜傢務的機器人保姆,甚至進行老年人康養護理等服務。”X Square 表示。


相關推薦

2024-04-03

則物體的精細操作(如抓握、拾取、切割等),以及折疊衣服、沖泡飲料等復雜任務,展現出相當程度的泛化性能。折疊衣物(3 倍速播放):對柔性物體的操作長久以來都是困擾整個 manipulation 領域的難題,需要高度靈活的操

2024-02-09

1月,斯坦福團隊升級版機器人控制方案Mobile ALOHA。讓它能做各種傢務,當時在網絡上爆火。ALOHA支持真人遙控操作和全自動兩種工作模式。前不久發佈的Mobile ALOHA在堆滿傢具的復雜環境中,機器人系統僅通過少量的人類示教,就

2023-05-28

EAP系列發動機一樣安靜。在微博平臺,中國人終於要坐上國產大飛機”的話題登頂熱搜。資料顯示,去年12月,中國商飛公司向中國東方航空交付全球首架C919大型客機,164座兩艙佈局。C919是我國首次按照國際通行適航標準自行

2023-08-28

小紅書平臺的獨特氛圍。在小紅書,我們會經常看到“求衣服鏈接”的問詢,用戶的需求要先於買手的選品。在小紅書方面看來,做電商,本質上是滿足那些“長期未得到滿足”的需求。事實上,小紅書並不願意主動定義“買手

2024-03-27

比如一些預設的編程。尤其是傢用機器人,在面對復雜的傢務勞動時,如果“大腦”中沒有足夠多的常識,就很難滿足人類傢庭的日常需求。如今,在大型語言模型(LLMs)的驅動下,傢用機器人已經可以掌握“常識性知識”,

2024-03-15

躍、快走等控制性能,還可以執行洗衣、澆花、插花、晾衣服等手部動作。其實這款機器人在去年12月就已經發佈,當時就具備全向行走、跳躍的能力,此次亮相距離發佈僅3個月,就已經開始學習洗衣、澆花、插花、晾衣服等傢

2024-01-07

拯救機器人行業,在大模型加持下,機器人可自動煎蛋、做傢務等。10、他期望大模型將推動基礎科學取得突破。據解,周鴻禕現場還與國外同行分享交流心得,他認為美國產業界已經All in AI,通過AI創新尋找增量市場。他建議

2023-11-13

真正的全球汽車公司的挑戰與去火星或賣給你一個機器人做傢務的炒作。”查諾斯說。特斯拉汽車的環保資質也在查諾斯的審查之下。他觀察到,許多客戶被特斯拉品牌所吸引,而不一定是被電動汽車的概念所吸引,這一趨勢反

2022-08-06

拉人形機器人原型,和普通人差不多大小,可以完成跑腿做傢務這些事情。消息一出,全球都炸。要知道迄今為止,全球范圍內還沒有真正意義上的人形機器人,科幻電影中的機器人依舊隻存在於電影中,而從來沒做過機器人的

2022-08-10

,達到一個全新的高度。人物的皮膚紋理、瞳孔、頭發、衣服材質等,都令人賞心悅目。值得稱道的是,《劍俠世界3》手遊並沒有為真實而真實,在角色精度提升的同時,維持系列一貫的藝術風格,撲面而來的熟悉的江湖俠氣

2024-06-14

靈活轉動,甚至能夠拿起雞蛋再放到托盤裡,還能自主疊衣服,走路的速度比上一代提升30%。上個月,特斯拉發佈一段人形機器人擎天柱Optimus最新進展視頻,展現其分揀電池、行走、執行工廠任務的能力,證明這款機器人已經

2022-09-27

是:住在別人的房子裡,付著不菲的清潔費,還要給別人做傢務——簡直是完整的沉浸式傢政體驗。你說房客們能不怨聲載道?/我到底是房客還是傢政? /前不久ChristinaMarie一傢六口來到太浩湖度假,就不幸成為Airbnb冤大頭

2022-11-16

神仙姐姐主演的國產劇《夢華錄》之前取得相當不錯的成績,而它也要走出國門登陸日本。日媒報道,劉亦菲、陳曉主演的國產劇《夢華錄》將於2023年1月在日本WOWOW電視臺播出。日文片名即為「夢華録(むかろく)」,被介紹

2023-11-18

語言做出反應,並且能夠基於對用戶的解完成許多不同任務的工具。在蓋茨看來,AI推動的“智能體”(Agent)將成為繼Windows和Android/iOS系統之後的下一個平臺。實際上,在開發者大會上,阿爾特曼也將GPTs和Assistant API直接和智能