AI大戰進入實體化階段 谷歌剛發佈的PaLM-E模型有哪些亮點?


過去幾個月裡,由ChatGPT引發的AI熱潮向人類展現通用語言模型的生產力前景。就在聊天機器人逐漸變成生產力工具之時,利用通用語言模型驅動真正的機器人也已經提上日程。本周老牌AI大廠谷歌與柏林工業大學的研究人員聯合發佈PaLM-E視覺語言模型,通過同時處理圖像和語言文本,解鎖人類與機器人交互的新篇章。

(預印本論文,來源:谷歌、柏林工業大學)
(預印本論文,來源:谷歌、柏林工業大學)

顧名思義,PaLM-E模型源自於谷歌的大型語言模型PaLM,E指的就是具象化(Embodied)。通過將通用語言模型與視覺轉換模型ViT相結合,PaLM-E成功實現讓AI同時具備“理解文字”和“讀懂圖片”的能力,不僅能夠輸出文字,還能輸出指令使得機器人的智能化躍上一個新的臺階

研究人員介紹稱,PaLM和ViT的結合,使得PaLM-E的參數量最高可達5620億組,也是全球已知的最大視覺語言模型。

回歸到資本市場最關心的問題,這個聽上去很厲害的AI模型,到底能幹什麼事情呢?對此研究人員也給出一系列案例,幫助外界理解這個模型的妙處。

(PaLM-E模型的案例,來源:谷歌、柏林工業大學)
(PaLM-E模型的案例,來源:谷歌、柏林工業大學)

首先,具備視覺屬性的AI模型將擁有解讀圖片並進行思維推理的能力。例如可以通過一張禁行交通標志(除自行車外)的圖片,來解答“我能否在這條馬路上騎自行車”;通過OCR識別餐館的手寫菜單,能進行賬單的計算;或是通過識別一系列烘焙材料的照片,向機器人傳達“制作蛋糕胚”的流程。

在AI模型與機器人結合的實驗演示中,機器人得到“從抽屜裡拿出米餅”的指令後,能夠順利地從十多個開放式抽屜中找到米餅,拿給研究人員。

(來源:谷歌、柏林工業大學)

在後續的實驗中,研究人員還要求機器人“將所有色塊按顏色堆放到不同角落”的指令,以及將“綠色色塊推到烏龜旁邊”的指令,即便機器人之前沒有見過這隻烏龜擺件,也能順利地完成任務。

(來源:谷歌、柏林工業大學)

雖然從演示視頻中來看,受限於演示機器人較為簡單的設計,執行指令的時候仍顯得“笨手笨腳”。但隨著PaLM-E模型賦予機器思考如何執行人類指令的能力,工業應用和工業設計上的突破也指日可待。或許在不久的將來,就會出現一款風靡全球的智能機器人硬件。

值得一提的是,作為AI大戰的老對手,微軟也已經在“圖像+語言模型”的路數上有所佈局。在今年2月底發表的研究中,微軟就展現如何使用ChatGPT為大疆Tello無人機編寫“找飲料”程序的案例。

(來源:微軟)                         


相關推薦

2023-03-10

條路上騎自行車嗎?模型進行一系列邏輯推斷:1、不能進入2、除自行車3、除自行車以外都不能進入4、答案是可以這和人類思考的過程確實很像。不僅如此,模型的最強大之處在於,它無需經過預處理,即提前理解環境。它做

2023-12-07

且是一條眼鏡蛇在用鉛筆畫烏龜,而且正處於畫畫的初期階段在用黑色馬克筆畫鳥,臉朝左,頭朝右,站在樹枝上,翅膀沒有展開對於圖1和圖2,的確判斷線索還不是很明顯,出現這樣的結果情有可原,不過圖3這個“烏龜”的答

2024-03-08

“美好的願景是人類和人工智能形成一種共生關系。”山姆·奧特曼說完之後看向埃隆·馬斯克。後者接過話頭,“我同意山姆所說的,我們已經像賽博格一樣工作。不過需要謹慎對待人工智能的發展,確保它最終對人類有利。

2023-02-09

回調之際,盤後繼續微漲 0.5%。將Google卷入這場生成式 AI 大戰,微軟毫不掩飾自己的想法。“我們的創新,將讓Google come out and dance。我們想讓人們知道,是我們讓他們 dance。”微軟總裁納德拉直言。微軟的嘗試取得成果,除市

2023-02-09

回調之際,盤後繼續微漲 0.5%。將Google卷入這場生成式 AI 大戰,微軟毫不掩飾自己的想法。“我們的創新,將讓Google come out and dance。我們想讓人們知道,是我們讓他們 dance。”微軟總裁納德拉直言。微軟的嘗試取得成果,除市

2023-03-24

便在所有這些進展之後,我們依然處在漫長AI征途的起步階段。隨著越來越多的人開始使用Bard和測試性能,他們會給我帶來驚奇,可能會出現問題。”與此同時,谷歌也在淡化生成式AI對自己搜索業務的沖擊,強調Bard並不是搜索

2023-02-28

集團的最新成果。ChatGPT的爆火再次引發科技行業的一場AI大戰。微軟公司投資支持的OpenAI發佈ChatGPT,能夠對話和撰稿。在ChatGPT的刺激之下,Alphabet、百度等科技公司宣佈,將推出自有的類似人工智能對話機器人。上周,Meta宣佈

2023-03-22

當地時間周二(3月21日),美國科技巨頭谷歌公司推出聊天機器人“巴德”(Bard)的測試版本,以期與OpenAI的ChatGPT展開競爭。Bard將與其谷歌搜索引擎分開運行,僅以英語生成答案。目前,谷歌僅允許美國和英國地區的用戶在官

2023-02-25

2月25日消息,不久前,谷歌在內部發起代號為“鬥狗”的活動,要求公司所有員工每周用兩到四個小時幫助測試和改進其新的人工智能搜索聊天機器人Bard。就在Bard發佈前不久,微軟也剛剛發佈采用ChatGPT聊天機器人背後技術的新

2023-02-08

度也在開發聊天機器人換句話說,微軟目前可能在AI搜索大戰中占據上風,但如果它的競爭對手采取行動的話,這種優勢可能很難維持。古根海姆研究公司分析師在ChatGPT版必應發佈後的一份報告中表示:“我們懷疑所有供應商都

2024-05-10

索都會是外界關註的重點。可以肯定的是,這場 AI 搜索大戰還會愈演愈烈。都是 AI 搜索,我們為什麼要在意 OpenAI 的?從 ChatGPT 推出伊始,就有不少網友喊出“Google已死”。一方面是 ChatGPT 展現出今天生成式 AI 驚人的“智能”

2024-02-13

專傢Henry Adjer指出:“我們仍處於這場生成式革命的初期階段;未來,合成介質和內容將在日常生活中無處不在,並且實現民主化。這不僅僅是一個簡單的新奇事物,而是將在娛樂、教育和供給方面推動突破性的進步。”2. AI模

2023-04-07

容生產者、分發渠道、廣大用戶以及利益鏈上的各個相關實體不可避免的爭議話題。美國新聞集團對AI主要的擔憂在於,人工智能工具可能會耗盡其網站的流量和廣告資金。目前,微軟提供的NewBing,會在用戶問題的答案中包含鏈

2023-02-08

業領域的潛力。 ”艾夫斯補充道:“隨著科技巨頭間的AI大戰第一槍打響,這場大戰將在未來幾個月內引領入下一個投資階段。”他維持對微軟“跑贏大盤”的評級,並維持其280美元的目標定價。隔夜,微軟股價收報256.77美元。