我們看到機器狗Spot會跑、會跳,甚至會跳舞......但現在我們可以看到Spot說話。在波士頓動力公司(BostonDynamics)發佈的一段視頻中,我們看到它的機器狗戴著高帽子,留著小胡子,瞪著炯炯有神的眼睛,用英國口音與工作人員聊天,帶他們參觀公司的設施。
"我們可以開始旅程嗎?"Spot 問。"充電站是斑斑機器人休息和充電的地方,也是我們第一個要參觀的地方。請跟我來,先生們。"正如演示中所示,Spot 能夠回答問題,甚至還能張開"嘴巴",讓人覺得它真的在說話。
為讓 Spot"說話",波士頓動力公司使用 OpenAI 的 ChatGPT API 和一些開源的大型語言模型(LLM)來仔細訓練它的回答。然後,它為機器人配備揚聲器,增加文本到語音功能,並讓它像木偶的嘴一樣"模仿說話"。
波士頓動力公司的首席軟件工程師馬特-克林根斯密斯(Matt Klingensmith)說,團隊為 Spot 提供一個"非常簡短的腳本",內容涉及公司設施中的每個房間。然後,機器人將腳本與它從抓手和身體上的攝像頭獲得的圖像結合起來,讓它"在產生反應之前獲得更多關於它所看到的信息"。據該公司稱,Spot 使用視覺問題解答模型為圖像添加標題,並回答有關圖像的問題。
"花式管傢"並不是 Spot 在視頻中扮演的唯一角色。這個四條腿的機器人還化身為 20 世紀 20 年代的考古學傢、青少年和莎士比亞筆下的時空旅行者。當被要求寫一首俳句時,它還會說"發電機在房間裡低聲嗡嗡作響,發電機在沒有歡樂的房間裡低聲哼唱,很像我的靈魂"。
波士頓動力公司表示,在將 Spot 作為導遊進行試驗時,他們發現一些意外情況。有一次,團隊問 Spot 它的"父母"是誰,結果它走到公司辦公室裡陳列的老款 Spot 模型的地方。該公司還指出,在一些情況下,LLM 仍然會胡編亂造,比如說它設計用來搬箱子的機器人 Stretch 是為瑜伽而生的。
"我們很高興能繼續探索人工智能與機器人技術的交叉點,"克林恩史密斯在波士頓動力公司網站的一篇文章中寫道。"這些模型(LLMs)可以幫助提供文化背景、一般常識性知識和靈活性,這對許多機器人任務都很有用--例如,隻需與機器人對話就能為其分配任務,這將有助於降低使用這些系統的學習曲線。"
雖然在視頻中,"斑點"聽起來和看起來都很傻,但還是讓人很難不聯想到這個像狗一樣的機器人開門和監視人的能力。畢竟,它隨時有可能成為警察和軍隊的工具。