2021年的特斯拉AIDay,特斯拉PPT首發人形機器人TeslaBot的概念機設計方案。按照馬斯克畫的大餅,TeslaBot可以完全代替人類“從事重復性/無聊的工作”。也許是擔心在場觀眾幹看PPT無聊,馬斯克請來一位身著緊身衣的皮套人,模仿TeslaBot尬舞一段。
AI Day結束,科技媒體The Verge表示,馬斯克的Tesla Bot就是個笑話[1]。文章還援引中央蘭開夏大學機器人工程教授Carl Berry的評價:說它是馬糞都算抬舉它(horse shit sounds generous, frankly)。
Carl Berry還專門搬出機器人領域的網紅公司波士頓動力,認為後者正在踏踏實實的做事,而特斯拉在加深公眾對機器人不切實際的幻想。
今年4月,特斯拉的皮套人尬舞再度被拉出來鞭屍。在波士頓動力展示新款機器人的視頻中,機器人以一種靈活到有些詭異的方式從地上站起來。
波士頓動力也在Twitter上陰陽怪氣一句:“我們保證這不是一個穿著緊身衣的人。”
事情的起因是,波士頓動力宣佈11歲“高齡”的人形機器人Atlas正式退休——Atlas算得上是初代機器人網紅,它被波士頓動力員工一棍子撂倒,接著踉踉蹌蹌爬起來的視頻,一度引發“停止霸凌機器人”的後現代哲學思考。
結果Atlas領退休金的第一天,“煥新版”Atlas正式出道。最大的變化是,波士頓動力拋棄原有的液壓結構,改為電機驅動。
目前,“煥新版”Atlas的宣傳片已經在YouTube上收獲500多萬播放量。
相比Atlas熟悉的後空翻大劈叉,相較之下,去年年底的第二代Tesla Bot才剛學會緩慢行走和90度深蹲。
加上馬斯克近幾年大餅畫的太多,也不難理解The Verge會提出“機器人為什麼要像人”的質疑。
然而,可能恰恰是2021年PPT上的Tesla Bot和滑稽的皮套人尬舞,決定波士頓動力的命運。
Google發現什麼?
相比荒誕開場的Tesla Bot,波士頓動力這傢公司是機器人領域根正苗紅的祖師爺。
波士頓動力成立於1992年,前身是麻省理工學院的腿部實驗室,長期致力於有腿機器人的研究。
2012年,DARPA(美國國防高級研究計劃局)為推動機器人研究,資助一場機器人挑戰賽,波士頓動力由此進入美國軍方的視野。
DARPA是五角大樓旗下的研究機構,和NASA一起誕生於美蘇爭霸的白熱化時期,目的是借助國傢意志確保美國在高科技領域的領先。隻不過NASA負責地球以外,DARPA負責地球以內。過去幾十年間,DARPA直接或間接的推動GPS、互聯網等技術的誕生。
2012年,正值DARPA在機器人、自動駕駛等領域大力投資,為降低參賽門檻,DARPA希望能有一款標準化的人形機器人,供參賽團隊編程。
在這之前,波士頓動力已經為DARPA開發多款產品,比如外型神似野豬的LS3,能夠穿梭於各種極端戰場環境,快速運送物資。
波士頓動力LS3
2013年7月,在DARPA的資助下,波士頓動力打造出身高1.88米,重達150千克的初代Atlas。這個新聞很快傳到Google的耳朵裡,波士頓動力的命運隨之改變。
當時,Google正在秘密籌備一個代號為“Replicant(復制人)”的機器人項目,由“Android之父”安迪·魯賓親自帶隊。按照魯賓的設想,Google將打造一個編程平臺,從而推動機器人普及,最終在機器人身上復刻Android系統的成功[3]。
為這個龐大計劃,Google瘋狂掃貨,一口氣收購九傢機器人初創公司,Atlas問世不到半年,波士頓動力就被Google收入囊中。此後,Atlas的迭代速度也坐上火箭。
2016年,波士頓動力毫無征兆的發佈一則新款Atlas的演示視頻,視頻中Atlas熟練的行走跳躍,尤其是被推倒在地後,仍能自主起身繼續完成工作,整個過程栩栩如生,帶給公眾的震撼不亞於2022年底ChatGPT的問世。
目前,這條視頻的Youtube播放量已經積累到4059萬。2017年,Atlas再接再厲,用一個精彩的後空翻再度把波士頓動力送上全球熱搜。
Atlas表演後空翻,2017年
然而,就在波士頓動力風頭正盛的2017年,投資五年之久的Google卻將其甩賣。按照彭博的說法,Google管理層的核心分歧在於商業化。
波士頓動力希望埋頭研究,但Google希望盡快打造能商業化的產品:“我們不可能用30%的資源去投入一個需要10年以上的項目[4]。”
在彭博的報道中,豐田和亞馬遜都是潛在的買傢,但波士頓動力最終被賣給軟銀,2020年又被賣給韓國現代。
Google內部,安迪·魯賓因性醜聞被掃地出門,Replicant項目也草草收場,劃上一個滿是遺憾的句號。
一傢明星公司在當打之年被潦草脫手,Google內部真實的決策過程難以知曉。但在這個過程中起到決定性作用的,很可能是2017年發生在Google內部的另一件事。
我來組成頭部
2017年6月,Google的8位AI科學傢聯名發表一篇名為《Attention Is All You Need》的論文。這是繼2012年AlexNet勇奪ImageNet挑戰賽冠軍之後,人工智能發展史上的又一個裡程碑事件。
Google的科學傢在論文裡提出一種“註意力機制”,並基於此開發一個名叫Transformer(變形金剛)的深度學習模型,解決傳統RNN模型的一系列問題。
2020年,Google又提出Vision Transformer ( ViT )概念,賦予Transformer處理圖像的能力。
隨著Transformer一口氣解決眾多缺陷,它漸漸發展成AGI領域的唯一解。
2012年的AlexNet讓AI有“感知”的能力,而Transformer和之後的大模型讓AI有“生成”的能力。換句話說,2012年的AI可以識別出各種各樣的貓,2017年之後的AI已經可以自己生成貓的圖片。
因此,Transformer的推出直接開啟今天的大模型時代,2018年6月,OpenAI推出基於Transformer模型的GPT-1,GPT裡的“T”,就是Transformer的首字母。此後,OpenAI沿著這條路線持續迭代,並基於GPT模型開發ChatGPT。
在大模型百花齊放的同時,Transformer也為人形機器人的進步打開一扇窗戶。
傳統機器人大多基於特定的規劃執行特定的操作,比如運輸、分揀,不具備感知和決策能力。人形機器人不僅能與物理世界交互,還有感知和理解能力。
舉一個不太恰當但好理解的例子:送餐機器人執行“把外賣送到1203號房”這個任務時,並不理解什麼是“外賣”和“1203號房”,隻是根據軟件系統既定的指令和路線規劃完成任務。
但人形機器人可以借由智能化,理解物理世界各種物體、語言和文字的含義,並自主規劃和決策。也就是說,機器人可以不依賴預先的編程,就能完成諸如“關掉最上層抽屜”等較為模糊的指令。
波士頓動力的問題在於,無論Atlas的機械與動力結構多麼優秀,都無法解決“窮舉法”的問題。
Atlas的軟件原理是通過攝像頭與傳感器輸入外界環境數據,再根據提前創建的行為庫,執行對應的動作。在其官方的文檔裡,波士頓動力坦誠這麼做的弊端:
“如果盒子向一側移動0.5 米,那麼Atlas會找到並完成跳躍;如果盒子移動得太遠,那麼系統將停止[5]。”
由於Atlas的所有動作都依賴提前設計的模版,那麼真實環境的一點點變化,都可能讓機器人無所適從。這也是為什麼傳統機器人隻被用於環境、路線和職能極度固定的工廠、酒店送餐等場景。
而Transformer帶來的思路是,隻要讓機器學習足夠多的數據,就能擁有類人的智能,可以脫離預設的規劃進行自主決策。
去年7月《紐約時報》探班Google實驗室, 完整記錄基於RT-2模型的機器人智能閃現的瞬間:
桌子上放著一堆塑料玩具,工程師讓單臂機器人“撿起滅絕的動物”,機器人拿起恐龍。
這意味著機器人不僅能識別三種動物,也能理解“滅絕的動物”的含義,還可以完成具體的操作。
Google RT-2
Transformer的出現徹底改變機器人的技術路徑,在感知-決策-執行的完整鏈條中,核心能力不再是驅動機器人後空翻大劈叉的機械結構,而是組成機器人大腦的軟件算法。
人工智能的進步在各行各業上演著軟件對硬件的奪權,機器人隻是其中之一。
另一個正在由軟件定義的行業是自動駕駛,這也是為什麼馬斯克會說:當你能解決自動駕駛,你就能解決現實世界中的人工智能。
特斯拉的三張牌
特斯拉在AI世界的出場,常常呈現某種荒誕不經的色彩。
2022年特斯拉備受期待的Tesla Bot第一次“真人”亮相,居然要依靠三名壯漢攙扶。兩個月後ChatGPT橫空出世,Tesla Bot成一塊無人問津的背景板。
然而,特斯拉在機器人領域的積累,可能比任何一傢公司都要深厚。
自動駕駛本質上是機器人的一個“前置產業”,兩者的核心都是基於人工智能,實現感知-決策-執行的完整鏈條。
這就意味著無論是軟件層面的算法,還是硬件層面的視覺傳感器、FSD芯片等零部件,理論上都可以用於人形機器人。
特斯拉也的確是這麼做的:Tesla Bot共配置有3顆攝像頭,左右眼各一個,外加一顆魚眼廣角。芯片是和特斯拉電動車一模一樣的FSD自動駕駛芯片。軟件上,Tesla Bot也承襲自動駕駛的技術方案。
2023年特斯拉股東大會,馬斯克也確認這一點:特斯拉已經打通自動駕駛芯片FSD和機器人的底層模塊,實現一定程度的算法復用。
任何人工智能的發展都需要算法、算力、數據三駕馬車來拉動,算法決定計算機用什麼方式識別事物;但算法又需要足夠大的算力來驅動;同時,算法的提升又需要大規模高質量的數據;三者相輔相成,缺一不可。
算法和算力層面,特斯拉已經借助電動車業務,完成從雲端(D1)到終端(FSD),核心軟硬件的自研。
數據層面,2022年的AI Day上,特斯拉宣稱已經存儲的有價值訓練數據集有23.2萬幀,驗證數據集0.38萬幀。上百萬車主正在源源不斷的為算法訓練貢獻著數據。
馬斯克本人在AI領域的涉足也常被忽略,他是OpenAI的創始人之一,也是DeepMind的早期投資人。他參與的人工智能公司還有腦機芯片Neuralink、聊天機器人Grok。特斯拉每天接受並處理的視頻畫面超過1600億幀,這很可能是商業公司能擁有的最大的真實世界數據集。
波士頓動力很可能意識到這個問題,但“煥新版”Atlas最大的改變,是從液壓改為全電動,最大的好處可能是降低成本。
在一次采訪中,創始人Marc Raibert曾表示Atlas在一定程度上激勵馬斯克制造Tesla Bot的想法。但在人工智能殘酷的競爭中,波士頓動力已經落後太多。
波士頓動力的問題在於,他們用20年的時間試圖教會機器人如何“運動”,但實際上,機器人應該先學會“思考”。
或許在不久的將來,判斷機器人的智能化程度,可能不是看它會不會後空翻大劈叉,而是能不能從九張圖片中選出包含紅綠燈或摩托車的圖片,或者滑動滑塊使圖片位於正確的角度。