還記得會炒菜的斯坦福ALOHA機器人嗎?現在,中國的初創公司自變量機器人(XSquare)展示同樣令人驚艷的能力,甚至更進一步。在該公司最新展示的Demo中,完全基於大模型自主推理的雙臂機器人,利用低成本硬件即實現對不規則物體的精細操作(如抓握、拾取、切割等),以及折疊衣服、沖泡飲料等復雜任務,展現出相當程度的泛化性能。
折疊衣物(3 倍速播放):對柔性物體的操作長久以來都是困擾整個 manipulation 領域的難題,需要高度靈活的操作和精細的動作協調。
切火腿(2 倍速播放):復雜的摩擦和阻力,難以用傳統方法快速建模,需要精確的力度控制與物體定位。
切黃瓜,2 倍速播放:在一種物體上習得的能力直接泛化到不同物體的操作上。
用海綿擦掉案板上的污漬(2 倍速播放):自修正的 close loop 控制能力,在不同壓力和表面條件下的精細力度控制,實時檢測並調整擦拭動作,確保徹底清潔污漬。
用勺子從罐子裡取出適量的果汁粉(3 倍速播放):使用工具的過程中,處理復雜的摩擦一直以來都是極大難點。
沖果汁,舉起水壺往杯中倒入適量的水(3 倍速播放) :流體引入大量的隨機性,準確操作非常困難。
這傢去年底成立的公司,匯聚來自世界著名人工智能 / 機器人學實驗室以及國內外頂尖高校的優秀人才,擁有雄厚的科研背景。公司的目標是“將人類從無意義的體力勞動中解放出來”,專註於機器人領域的基礎模型(foundation model)研發。
目前,團隊正在構建一個具備從感知到行動的端到端能力的通用機器人大模型(“中樞神經”),目標是能夠控制低成本硬件(如數千元的機械臂),完成包括烹飪、打掃衛生在內的日常傢務,並在未來擴展到照顧老人和小孩等更復雜的傢庭護理工作,以及完成其他達到人類水平的通用操作任務。
基於具身智能大模型,開發通用機器人平臺
盡管機器人管傢是人類對智能未來最具代表性的暢想,但在現實生活中,能夠勝任傢務勞動的通用服務機器人幾十年來的發展一直困難重重。傢庭環境的多樣性和不可預測性要求機器人具備高度復雜的感知能力、靈活精確的機械操作、智能的決策和規劃,以及有效的人機交互能力。此外,技術的集成、機器人的安全性、續航能力、成本等,也是必須克服的重要障礙。
傳統的機器人通常采用基於規則和單一任務環境的方式,很難根據環境變化自主調整策略,從長遠看也幾乎不可能規模化。大語言模型(LLM)等人工智能技術的突破,為機器人領域帶來新的曙光。Google的 RT-2 系統將視覺-語言-動作模型與機器人技術相結合,使機器人能夠處理復雜場景,並響應人類的指令。DeepMind 的 AutoRT 系統則使用視覺-語言模型(VLM),幫助機器人適應未知環境,並利用 LLM 來為機器人提供指令。大模型在知識遷移和泛化方面的這些優勢,有望幫助機器人逼近甚至超越人類的水平。
X Square 認為,目前機器人領域正處於技術的代際更迭之際。 斯坦福 ALOHA 等項目表明,通用機器人發展的瓶頸在於智能而非硬件。事實上,機器人領域長期以來面臨的兩大困難,一是如何在復雜環境中精確感知並做出精細的操作(low level 智能),二是缺乏類似人類的推理、規劃、交互等高級認知能力(high level 智能)。從感知到行動,機器人的智能可以被視為一個從 high level 逐步到 low level 的決策過程。
大模型的出現為解決上述難題帶來新思路。運用 LLM 或 VLM 來進行高階推理與規劃、與人交互,已經成為業界公認的發展方向。
但是,直接用單一的大模型來驅動端到端的機器人 manipulation,目前嘗試的團隊還不多。
X Square 的獨特之處便在於此,團隊基於過往在模型、算法、系統、硬件等方面的科研成果積累,集合所有技能訓練“機器人 Large Manipulation Model”,從手部操作切入,基於具身大模型來構建可以精細操作的通用機器人。
團隊希望結合 high-level 的推理規劃模型與 low-level 的操作控制模型,打造一個類似“機器人大腦-小腦”的通用操作系統。
“我們公司名為 X Square,寓意要同時在 high level 推理和 low level 控制這兩個維度做大模型,並把兩者有機結合。目前我們在兩個方向都已有不錯的基礎,有信心在一年內從追趕到超越目前的世界領先水平。”
X Square 指出:“與腿的移動能力相比,手的操作能力包含更豐富和復雜的動作,要求更高級別的控制精度。人類手部的精細操作是我們智能的根本表現。”
不同於很多人形機器人公司關註對人體形態的模仿,X Square 更關註實現接近人類的功能。“采用輪式移動底盤搭配雙臂,可以大幅降低成本,2-3 年內整體硬件成本有望降至 1 萬美元以下,我們認為放棄 5% 的人形功能來換取數量級的成本優勢是值得的。”
軟硬件一體,驅動數據飛輪
“我們希望模型擁有怎樣的能力,就需要提供給模型什麼樣的數據。是數據,而非算法或結構決定模型的能力,這是當今時代的核心方法論。”
機器人的特殊性在於,它是一個具有前所未有復合性的綜合系統。相比純軟件的 LLM 和多模態大模型,具身智能大模型雖然在規模上暫時無法與之相比,但在工程上難度要高出許多,它必須在海量的真實和模擬場景中不斷實踐、學習。因此,能否找準技術方向,在降低開發成本和提高迭代效率的同時,打造高質量的數據采集能力,控制試錯成本,最終實現規模化,是決定成敗的關鍵因素。
這對團隊軟硬一體的能力提出很高的要求,因為是否具有足夠的軟硬結合能力,在機器人這一多模態集中融合的領域直接關系到迭代速度與數據質量。軟硬件一體發展,是 X Square 的核心理念。無論是機器人本體的形態設計,還是數據采集系統,都是為機器人“中樞神經系統”的開發在服務。
在模型算法設計上,X square 也有自己獨特的理解和創新。“除需要有專門的數據,還需要針對性的結構設計和訓練方法,不能單純套用其他領域的大模型經驗,因為它必須直接面對復雜的真實世界,要在真實世界中不斷實踐、迭代。”
同時,由於大模型與傳統 deep learning for robotics 具有相當的 gap,是否真正具備足夠的大模型訓練落地經驗,決定能否快速構建通用具身智能大模型。這也正是 X Square 的優勢所在。
“目前語言大模型的訓練預測架構在機器人上不完全work,以 Transformer 為底座算法模型不能很好地支持因果關系的推理,而因果性在機器人所在的物理世界中大量出現,並在機器人操作中起關鍵作用。為處理因果性,目前有很多 world model 的嘗試。但當前的世界模型要麼完全集中在圖像 / 視頻重建上(如 Sora),要麼完全集中在高層語義理解上,缺乏適合機器人的形態。”
X Square 篤定機器人大模型這個方向,一方面是基於團隊成員親歷深度學習從被質疑到一統江湖,以及 LLM 從默默無聞到大放異彩的技術浪潮,另一方面,也是看好中國作為全球硬件中心,擁有得天獨厚的產業鏈優勢,也有利於快速縮短機器人的研發周期。
團隊在不到 3 個月的時間裡,就完成技術架構的搭建和早期模型的訓練,展現出驚人的成長速度和卓越的工程能力。
“在現階段,我們也積極尋求與上下遊合作夥伴的協作,實現智能的迭代升級。未來,隨著具身智能大模型技術的日益成熟,我們會更聚焦於特定應用場景,推出自己的機器人產品,例如能完成做飯、打掃等復雜傢務的機器人保姆,甚至進行老年人康養護理等服務。”X Square 表示。