谷歌砸出5620億參數大模型 機器人都能用 學術圈已刷屏


為應對新一輪技術競賽,Google還在不斷出後手。這兩天,一個名叫PaLM-E的大模型在AI學術圈瘋狂刷屏。它能隻需一句話,就讓機器人去廚房抽屜裡拿薯片。即便是中途幹擾它,它也會堅持執行任務。




PaLM-E擁有5620億參數,是GPT-3的三倍多,號稱史上最大規模視覺語言模型。而它背後的打造團隊,正是Google和柏林工業大學。

作為一個能處理多模態信息的大模型,它還兼具非常強的邏輯思維。

比如能從一堆圖片裡,判斷出哪個是能滾動的。


還會看圖做算數:


有人感慨:

這項工作比ChatGPT離AGI更近一步啊!


而另一邊,微軟其實也在嘗試ChatGPT指揮機器人幹活。

這麼看,Google是憑借PaLM-E一步到位?

邏輯性更強的大模型

PaLM-E是將PaLM和ViT強強聯合。

5620億的參數量,其實就是如上兩個模型參數量相加而來(5400億+220億)。


PaLM是Google在22年發佈的語言大模型,它是Pathways架構訓練出來的,能通過“思考過程提示”獲得更準確的邏輯推理能力,減少AI生成內容中的錯誤和胡言亂語。

Pathways是一種稀疏模型架構,是GoogleAI這兩年重點發展方向之一,目標就是訓練出可執行成千上百種任務的通用模型。

ViT是計算機視覺領域的經典工作,即Vision Transformer。

兩者結合後,PaLM-E可以處理多模態信息。包括:

語言

圖像

場景表征

物體表征

通過加一個編碼器,模型可以將圖像或傳感器數據編碼為一系列與語言標記大小相同的向量,將此作為輸入用於下一個token預測,進行端到端訓練。


具體能力方面,PaLM-E表現出比較強的邏輯性。

比如給它一張圖片,然後讓它根據所看到的做出蛋糕。

模型能先判斷出圖像中都有什麼,然後分成9步講該如何制作蛋糕,從最初的磕雞蛋到最後洗碗都包括在內。


有人還調侃說,這機器人怎麼在把蛋糕給我前先自己吃?


還有根據圖片做判斷:我能在這條路上騎自行車嗎?

模型進行一系列邏輯推斷:

1、不能進入

2、除自行車

3、除自行車以外都不能進入

4、答案是可以


這和人類思考的過程確實很像。

不僅如此,模型的最強大之處在於,它無需經過預處理,即提前理解環境。

它做出判斷和回答,完全是基於它自己的“經驗”。

研究人員表示,這項成果表現出很強的正向遷移(positive transfer)能力。

在多個領域任務的訓練中,PaLM-E的表現都優於單項任務機器人模型。


而且他們還發現,語言模型的規模越大,它最終能保持的語言理解能力越強。

比如使用5400億參數規模的PaLM時,PaLM-E在語言任務上的實際能力僅下降3.9%。


從實驗結果來看,PaLM-E在OK-VQA基準上達到新SOTA。


在模擬環境下的任務完成度也都不錯。


再次驗證大力出奇跡

目前這項研究已引發非常廣泛的討論。

主要在於以下幾個方面:

1、一定程度上驗證“大力出奇跡”

2、比ChatGPT更接近AGI?

一方面,作為目前已知的規模最大的視覺語言模型,PaLM-E的表現已經足夠驚艷。

去年,DeepMind也發佈過一個通才大模型Gota,在604個不同的任務上接受訓練。

但當時有很多人認為它並不算真正意義上的通用,因為研究無法證明模型在不同任務之間發生正向遷移。

論文作者表示,這或許是因為模型規模還不夠大。

如今,PaLM-E似乎完成這一論證。


不過也有聲音擔心,這是不是把卷參數從NLP引到CV圈?

另一方面,是從大趨勢上來看。

有人表示,這項工作看上去要比ChatGPT更接近AGI啊。

的確,用ChatGPT還隻是提供文字建議,很多具體動手的事還要自己來。

但PaLM-E屬於把大模型能力拉入到具象化層面,AI和物理世界之間的結界要被打破。


而且這個趨勢顯然也是大傢都在琢磨的,微軟前不久也發佈一項非常相似的工作——讓ChatGPT指揮機器人。

除此之外,還有很多人表示,這再一次驗證多模態是未來。

不過,這項成果現在隻有論文和demo發佈,真正能力有待驗證。


此外還有人發現,模型驅動的機器人,背後的開發團隊在幾周前被Google一鍋端……


所以關於PaLM-E的更多後續,咱們還得再蹲蹲看。


相關推薦

2022-06-30

……把它給畫出來呢?(讀都讀不出來,還畫畫???)谷歌最新提出來的一個 AI——Parti,它就能輕松 hold 住這事。在把這個單詞“投喂”給 Parti 後,它就能有模有樣地生成多張合情合理的肺部疾病圖片:但這隻是 Parti 小試

2023-03-28

相對謹慎的Google也似乎忘記這條擔憂,並在3月7日報復性砸出5620億參數大模型,甚至能夠控制機器人運動。目前,以微軟和OpenAI為代表,美國AI大模型正在積極推動產業應用。微軟早在2月份就宣佈將會在全線產品接入ChatGPT,並

2023-11-10

團CEO吳泳銘發表講話。吳泳銘表示,阿裡巴巴即將開源720億參數大模型,這將是國內參數規模最大的開源大模型。這已經不是阿裡首次開源大模型,在今年8月份,阿裡上架兩款開源模型Qwen-7B和Qwen-7B-Chat,分別是通義千問70億參

2023-03-09

模型驅動真正的機器人也已經提上日程。本周老牌AI大廠谷歌與柏林工業大學的研究人員聯合發佈PaLM-E視覺語言模型,通過同時處理圖像和語言文本,解鎖人類與機器人交互的新篇章。(預印本論文,來源:谷歌、柏林工業大學

2023-02-25

),以及自傢復現的開源模型OPT。而LLaMA-65B則與DeepMind 700億參數的Chinchilla-70B和Google5400億參數的PaLM-540B旗鼓相當。論文地址:https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/與Chinchilla、PaLM或GPT-3不同的是

2024-04-01

與無穹Infini-AI順利完成系統級融合適配,並完成LLama2 700億參數大模型的訓練測試。“誇娥”集群基於雙路八卡GPU服務器MCCX D800,每個節點有八塊MTT S4000 GPU加速卡、兩顆Intel第四代至強處理器、16 x 64GB內存、4×3.84TB NVMe SSD,以及

2024-08-31

加速卡,運算能力達到每秒690億億次浮點運算,能滿足萬億參數的大模型訓練要求。據項目負責人介紹,該隻算中心相當於300多萬臺高性能個人計算機每秒的計算能力,單集群相當於編隊,減少互相傳輸時間,在編隊內就把整個

2023-09-23

全新架構的昇騰AI計算集群Atlas 900 SuperCluster,可支持超萬億參數的大模型訓練。華為常務董事、ICT基礎設施業務管理委員會主任、企業BG總裁汪濤介紹,新集群采用全新的華為星河AI智算交換機CloudEngine XH16800,借助其高密的800GE

2024-04-10

先50%、訓練時間快40%。Gaudi 3預計可大幅縮短70億和130億參數Llama2模型、1750億參數GPT-3模型的訓練時間。在Llama 70億/700億參數、Falcon 1800億參數大型語言模型上,Gaudi 3的推理吞吐量和能效也都非常出色。Gaudi 3提供多種靈活的形

2023-03-02

社會開放。目前已參與內測的一些用戶表示,盡管MOSS在參數規模上和ChatGPT相比小一個量級,事實性問題覆蓋不夠全面,經常會“一本正經地胡說八道”,但確實有“ChatGPT那味兒”“基本功能都實現”。邱錫鵬很樂觀,認為在不

2024-03-15

igure 01 的牛當然不在於身體,而是在於它告訴大傢借助大模型的魔力,人形機器人是可以自主做計劃、執行任務、有記憶、聽懂人話的。要知道在此之前,人形機器人一直都是偏科的體育生,身體不錯但是文化課掛科。如果,咱

2023-03-15

,OpenAI發佈第一代GPT,2019年11月發佈GPT-2,2021年發佈1750億參數量的GPT-3,不僅可以更好地答題、翻譯、寫文章,還帶有一些數學計算的能力等,而ChatGPT是微調之後的GPT-3.5消費級應用。今天發佈的GPT-4,是一個大型多模態模型,

2022-07-01

下的通用語言模型PaLM改造而來。分別在80億、600億和5400億參數PaLM模型的基礎上做進一步訓練。Minerva做題與Codex的思路完全不同。Codex的方法是把每道數學題改寫成編程題,再靠寫代碼來解決。而Minerva則是狂讀論文,硬生生按理

2022-10-13

有利於下遊任務。使用這些方法,WeLM總共設計從13億到100億參數的三個版本,可按需調用。其中100億參數的滿血版WeLM在14項中文任務中整體表現超過同大小的模型,甚至在零樣本任務上超過比它大25倍的模型。這其中最大的秘訣