還記得曾火遍全網的ALOHA傢務機器人嗎?最近該項目導師,斯坦福計算機科學與電氣工程系教授ChelseaFinn在X宣佈,正式與其他幾位伯克利大牛學者、GoogleDeepMind科學傢共同創業,全力為機器人打造智能大腦。
新公司的名字叫Physical Intelligence,簡稱Pi或π。目標是開發一套“為各種機械設備添加高級智能的軟件”,最終構建可以控制任何機器人執行任何任務的通用AI模型。
Chelsea Finn解釋說,這其實極具挑戰性,需要整合機器人跨平臺策略、從視覺和語言模型中遷移學習、並通過模仿學習實現對靈活技能的掌握。
聯合創始人兼CEO Karol Hausman也興奮表示,項目將收集前所未見規模的機器人數據,進行算法改進和訓練超大模型,並攻堅一切將AI引入物理世界所需的技術。為此他們組建一支“世界級團隊”,迫不及待開始這趟新的冒險旅程。
根據公開消息,才創立不到一個月,Pi已經被包括OpenAI和其早期投資者Khosla Ventures、美國紅杉資本、Lux Capital在內的多傢風投機構提前鎖定,拿下7000萬美元的高額融資。這不僅因為公司在機器人賽道中的技術前景被無比看好,更多是對創始團隊實力的信心押註。
十人團隊,人均大神,一位華人成員
Pi的官網頁面上是這樣介紹自己的:
“Physical Intelligence是一傢將通用人工智能帶入物理世界的新公司。
我們是一群工程師、科學傢、機器人學傢和公司創建者,正在開發驅動當今機器人和未來物理設備的基礎模型及學習算法。現在還處於初期階段,歡迎有興趣的夥伴加入!”
列出的成員目前隻有十人:
雖然展示方式“過於樸素”,但團隊陣容實際上相當豪華,幾乎是人均大神。在加入Pi以前,他們各自都有不斐的研發成果,好幾位都是業界響當當的名字。
首先必須介紹的是除Chelsea Finn和Karol Hausman的另一位聯創Sergey Levine。
Sergey Levine現任UC Berkley電氣工程與計算機科學系助理教授,專註於研究讓自主智能體通過學習獲得復雜行為的通用算法,集中在機器學習決策和控制領域。並開發端到端深度神經網絡訓練策略,曾帶領團隊與Google聯合開發RT-X機器人項目,被認為是強化學習領域的領軍人物之一。
然而更令這個男人揚名立萬的是他“學術狂魔”的名號。Sergey LevineGoogle學術上被引用量超過13萬,同時在頂級國際會議和期刊上發表過大量研究論文,接收量長期位居前列,並且經常霸榜。
例如NeurIPS 2019 和 2020 上他分別有 12 篇論文被接收,位列NeurIPS榜單第一。2019年ICML論文接收量並列第二。2022年更是向ICML投稿30篇論文,並以16篇的接收量斷崖式登頂作者Top1——簡直是令人聞之喪膽的“論文收割機”!
此外Sergey Levine還是伯克利人氣超高的“網紅教授”,教育成就十分突出。他開設的深度學習課程(Deep Reinforcement Learning,代號CS285)在學生中反響極為熱烈,很受歡迎。線上視頻在油管和B站都可以觀看,廣為傳播。
在這次對於新公司Pi的“創業聲明”裡他說,希望為機器人領域帶來類似“大語言模型之於自然語言處理”那樣的通用解決方案。
“過去我們已經多次看到,機器學習在大規模數據集與小數據集中面臨的問題有巨大不同。我們的研究很有實用性價值,相信也會為基礎研究突破打開大門。”
開篇提到的Chelsea Finn也是聯合創始人之一。她從MIT大學畢業後在伯克利取得博士學位,其介紹元學習算法的畢業論文獲得2018年ACM博士論文獎,當時的指導老師就有Sergey Levine。
目前Chelsea Finn擔任斯坦福大學計算機科學和電氣工程的助理教授,重點研究通過學習和交互來發展機器人等智能體的廣泛智能行為。例如端到端視覺感知和機器人操控,從收集的經驗中自主學習通用技能,以及快速學習新概念和行為的元學習算法,Google學術引用超4.9萬次。她也曾在Google大腦擔任過5年研究科學傢,開發機器人深度預測模型。
Pi的首席執行官Karol Hausman是Google大腦的高級研究科學傢,同時也是斯坦福大學的兼職教授。他的研究興趣集中在使機器人能夠在真實世界中以最小的監督自主獲得通用技能,並因“對可擴展的機器人學習算法做出重大貢獻”而獲得2023年IEEE機器人與自動化學會行業職業獎。
Hausman在X的自我介紹十分有趣:“喜歡機器人、AI、NBA、哲學、足球和杏仁可頌。”
除這三位,團隊還聚集擅長機器人運動規劃和基礎模型的前Google研究科學傢Brian Ichter;巴基斯坦裔傑出工程師、前特斯拉自動駕駛和硬件專傢(設計Model X獨特的上翹式獵鷹門)、現Anduril Industries高級副總裁兼電氣工程負責人Anduril Industries;Chelsea得意門生、豐田研究所機器學習、機器人學和計算機視覺研究科學傢Suraj Nair;以及支付公司Stripe前高管、著名科技投資人Lachy Groom等業界大牛。
另外吸引我們註意的是,這份名單列表裡還有一位華人成員Lucy Shi。這位來自人大附中的姑娘在USC獲得計算機科學學士學位,現在是一名斯坦福的學生研究員,由Chelsea Finn教授指導。曾與NVIDIA 高級研究科學傢兼通用具身智能研究團隊負責人Yoke Zhu、高級研發經理Jim Fan合作過。
最近她剛公佈斯坦福與伯克利合作的Yell At Your Robot(YAY Robot)項目,展示機器人從語音糾正中實時改進,根據人類口語反饋來學習和不斷提升,執行靈巧操作任務的研究成果。
Lucy Shi在個人頁面開心地分享自己以“第一位實習生”身份加入Physical Intelligence 的消息。
自我介紹中她寫道:“我對機器人學習有著廣泛興趣。研究目標是創造出通用型機器人,在我們日常生活中無縫執行復雜、長期的任務….我深信人類的創造力和人工智能的潛力。未來20年,我希望成為一名大學教授,建立起新一代的貝爾實驗室 ——這個改變世界的創新思想工廠。這讓我們欣喜地看到又一位智慧與理想兼具、前途無量的年輕學者。”
迎難而上的智能機器人大腦締造者
在歷久以來的科幻小說和電影裡,人們總夢想有一個真正聽懂自己需求的機器人。它會思考、有情緒,能跟在身邊陪伴我們,幫助解決生活中的種種難題,像人類朋友一樣全能。然而現實中的機器人雖說可以在工廠搬運重物、給傢裡打掃衛生,但與日益通用化的聊天機器人相比,能夠執行的任務范圍相對要局限很多。
Chatbot和LLM的崛起得益於互聯網語料中的海量數據。OpenAI和Google可以通過向大語言模型輸入數十億個人類語言樣本來訓練它們。然而從真實世界收集類似規模的數據是極其困難的,這也限制近幾年人工智能在物理機器人領域的進步。
Physical Intelligence認為,現在正是采用新方法推進通用型機器人的時機。
Figure 01通過接入ChatGPT實現人形機器人智能化的“看聽說”交互,讓人們看到大模型與機器人結合的巨大潛力。Pi也希望將構建語言模型的先進技術與自己的機器控制和指令技術相結合,創建一種任何硬件、任何平臺都可用的,具備廣泛任務執行能力的通用人工智能系統。
團隊表示,Pi並不專註於特定類型的機械臂或工業機器人,而是計劃開發可以應用於多種類型機器人的軟件。他們也不會制造自己的硬件,創業後第一步是解決工程問題、搭建模型,以及購買各種不同的機器人並在上面開展訓練,目的就是積累迄今為止最大規模的機器人數據。
Karol Hausman在接受公開采訪時強調,團隊要開發一個通用模型,將人工智能從計算機裡帶到物理世界,“它能為任何硬件設備提供動力,用於任何應用。”
而這顯然不僅僅是Pi的願景。除面臨來自Figure AI和特斯拉等制造人形機器人公司的競爭,幾十年來,人們也一直在努力改進驅動機器人的軟件。
就在Pi宣佈成立的同一周,有著7年歷史、由知名AI科學傢Pieter Abbeel和他三位華人博士生創立的Covariant公司就推出基礎模型RFM-1,為機器人提供類似ChatGPT的語言理解和生成能力。經過一般互聯網數據和豐富現實世界交互數據的聯合訓練,RFM-1可以讓機器人理解自然語言指令並生成相應的動作,並能處理一些突發狀況,收獲大量好評。
如今強強聯合,正式加入戰場的Pi,到將團隊多年潛心累積的卓越成果集大成的時候。再加上OpenAI的背後支持,能不能湊齊龍珠召喚神龍,推動通用機器人領域的新紀元?
“我們的目標是為機器帶來人類那樣的基本能力。” Lachy Groom說,“我認為構建人形機器人是非常酷的事情。但從根本上讓人類變得有趣的是大腦,而不是我們的硬件——我們才是終極的通才。”