馬斯克的首款多模態大模型來 GPT-4V又被超越一次


自從2023年11月Grok首次亮相以來,馬斯克的xAI正在大模型領域不斷取得進步,向OpenAI等先行者發起進攻。在Grok-1開源後不到一個月,xAI的首個多模態模型就問世。昨天,xAI推出Grok-1.5V,該模型不僅能理解文本,還能處理文檔、圖表、截圖和照片中的內容。


官方博文表示:“Grok-1.5V 在許多領域都能媲美當前頂尖的多模態模型,從多學科推理到理解文檔、科學圖表、圖表、截圖和照片。” xAI 還表示,在接下來的幾個月裡,預計將在圖像、音頻和視頻等各種模態上顯著提高模型能力。

我們看到 Grok-1.5V 與 GPT-4V、Claude 3Sonnet、Claude 3 Opus 和 Gemini Pro 1.5 的測試對比。其中特別提到的是:“Grok 在理解物理世界方面的能力尤其令我們興奮。在我們新推出的 RealWorldQA 基準測試中,Grok 的表現優於同類產品。對於下面的所有數據集,我們都是在沒有思維鏈提示的情況下對 Grok 進行評估的。”


如果 Grok-1.5 能在類似於 Grok-1 的開源許可證下發佈,這將成為當下 LLM 競爭格局的一個重要節點。

Grok-1.5V 表現如何?

目前,Grok-1.5V 還沒有完全開放,但會很快提供給早期測試者和現有的 Grok 用戶。不過,博客中展示 Grok-1.5V 的七個示例。

第一個是將流程圖的白板草圖轉換為 Python 代碼:

Prompt:Can you translate this into Python code?(你能把它翻譯成 Python 代碼嗎?)


Grok:當然!您提供的流程圖描述一個簡單的競猜遊戲:計算機生成一個隨機數,用戶必須猜出它。下面是表示流程圖中邏輯的 Python 代碼:

import random

def guess_number(): # Generate a random number between 1 and 10

target = random.randint(1, 10)

while True:guess = int(input("Guess a number between 1 and 10:"))

if guess == target:print("You won!")breakelse:print("Wrong guess, try again!")

if __name__ =="__main__":guess_number()

第二個是計算卡路裡:

Prompt:How many calories are there in 5 slices of this?(5 片有多少卡路裡?)


Grok:如果一份是 3 片,含有 60 卡路裡,那麼 5 片就含有大約 100 卡路裡。計算方法是首先確定每片的熱量:60 卡 / 3 片 = 20 卡 / 片。然後,將每片的卡路裡乘以片數:每片 20 卡路裡 * 5 片 = 100 卡路裡。

第三個是將草圖轉化為睡前故事:

Prompt:My son drew this, can you tell a short bedtime story based on his drawing?(這是我兒子畫的,你能根據他的畫講一個簡短的睡前故事嗎?)


Grok:

很久很久以前,在一個充滿冒險和奇跡的國度裡,有一個勇敢的小男孩,名叫提米。提米和傢人住在舒適的小房子裡,他最喜歡的事情就是探索周圍的世界。

在一個陽光明媚的日子裡,提米決定去附近的森林探險。他帶上自己最喜歡的零食、指南針和他最信任的筆記本,準備把看到的所有令人興奮的事物都畫下來。

當 Timmy 走進森林深處時,他發現一條在陽光下閃閃發光的神奇河流。這條河是如此迷人,以至於提米決定做一艘小紙船,順流而下,作為給森林精靈的特別訊息。

提米小心翼翼地折好紙船,在上面畫一個笑臉,希望能給森林精靈帶來歡樂。然後,他把小船放在河面上,看著小船載著他的友誼和對大自然的愛漂走。

夕陽西下,提米知道是時候回傢。他為自己在森林裡度過的神奇的一天感到慶幸,他知道自己將永遠銘記這次探險。

回到傢後,提米和傢人分享他的故事,傢人聽到他在森林裡度過的神奇一天都非常高興。他們一致認為,提米勇敢、善良的精神是一種真正的激勵,他們知道,提米今後還會有更多精彩的冒險經歷。

就這樣,帶著滿心的愛和滿腦子的夢想,提米漸漸進入夢鄉,他渴望發現在他的想象世界裡還有什麼新的冒險在等著他。

第四個是解釋梗圖:

Prompt:I don't get it, please explain(我不理解,啥意思?)


Grok:

這幅圖幽默地將初創公司和大公司作對比。在標有"初創企業"的左側,有一群人在一起挖洞。他們都在積極參與,洞已經挖得很深。

在標有"大公司"的右側,有一群人圍著一個洞站著。然而,與初創公司不同的是,隻有一個人真正在挖洞,其他人都在觀看或從事其他活動。

這幅圖的幽默感來自於對初創企業和大公司之間差異的誇大。在初創公司,人們往往有一種緊迫感,希望每個人都能直接為手頭的任務做出貢獻。相比之下,大公司往往被描述為官僚主義更嚴重,所有團隊成員對每個項目的直接參與更少。

第五個是將表格轉換為 CSV 文件格式:

Prompt:Please convert this table to csv.(請將此表轉換為 csv。)


Grok:

medal,name,sport,event,date1 gold,El Amin Chentouf,Athletics,Men's marathon - T13,11 September1 gold,Mohamed Amguoun,Athletics,Men's 400m - T13,15 September1 gold,Azeddine Nouiri,Athletics,Men's shot put - T34,15 September2 silver,Mahdi Afri,Athletics,Men's 400m - T12,9 September2 silver,El Amin Chentouf,Athletics,Men's 5000m - T13,15 September3 bronze,Mahdi Afri,Athletics,Men's 200m - T12,17 September3 bronze,Mohamed Lahna,Paratriathlon,Men's PT2,10 September

CSV 格式不支持樣式或格式設置,因此信息以純文本格式呈現。

第六個是辨別木頭的腐朽程度:

Prompt:These holes are appearing around the screws in my deck. Is it rotten? Should I get my boards replaced?(這些孔出現在我的甲板上的螺釘周圍。是不是爛?我應該更換嗎?)


Grok:

甲板上的木材似乎已經開始腐爛。這表現在螺絲周圍出現孔洞,這是木材腐爛的常見跡象。

為確保露臺的安全和使用壽命,建議更換受影響的木板。這將有助於防止其受到進一步損壞,並保持其結構的完整性。

如果您不確定如何更換木板,咨詢專業的露臺建造商或承包商可能會有所幫助。他們將能夠評估損壞的程度,並就最佳行動方案向您提供專傢建議。

第七個是解決編程問題:

Prompt:Can you write Python code that solves this?(你能編寫 Python 代碼來解決這個問題嗎?)


Grok 回復如下:

def find_triplets(nums):result = []nums.sort()for i in range(len(nums) - 2):if i > 0 and nums[i] == nums[i - 1]:continuetarget = -nums[i]left = i + 1right = len(nums) - 1while left < right:if nums[left] + nums[right] == target:result.append([-target, nums[left], nums[right]])left += 1right -= 1while left < right and nums[left] == nums[left - 1]:left += 1while left < right and nums[right] == nums[right + 1]:right -= 1elif nums[left] + nums[right] < target:left += 1else:right -= 1return result

RealWorldQA 基準

本次發佈還有一個亮點:xAI 推出一個新的基準“RealWorldQA”。

下載地址:https://data.x.ai/realworldqa.zip

“為開發有用的真實世界人工智能助手,提高模型對物理世界的理解至關重要。”xAI 希望借助該基準更好地評估多模態模型的基本真實世界空間理解能力。“雖然當前基準中的許多示例對人類來說相對容易,但它們往往對前沿模型構成挑戰。”


目前,RealWorldQA 包含 700 多張圖片,每張圖片都有一個問題和易於驗證的答案。

在真實世界的圖像外,該數據集還包括從車輛上拍攝的匿名圖像。這對於自動駕駛領域來說,或許是個好消息。

巧合的是,微軟研究院前段時間更新跨語言、模態、模型和任務的基準測試 MEGAVERSE,包含 22 個數據集,涵蓋 83 種語言(包括資源匱乏的非洲語言)。微軟還在基準測試中加入兩個多模態數據集,並比較 LLaVA 模型 GPT-4-Vision 和 Gemini-Pro-Vision 的性能。


Meta 在前幾天也開源衡量人工智能系統具體問答能力的基準數據集 OpenEQA,包含傢庭和辦公室等 180 多種不同現實環境的 1600 多個問題,跨越七個類別,全面測試 AI 在物體和屬性識別、空間和功能推理以及常識知識等技能方面的能力,加深大模型對現實世界的理解。


即使是最先進的 AI 模型,如 GPT-4V,在 OpenEQA 上也難以與人類表現相媲美。OpenEQA 是衡量人工智能系統理解和回答現實世界問題能力的新基準。

在這些研究的推動下,我們可以期待一下 2024 年大模型在現實世界任務取得更多的進展。

參考鏈接:https://x.ai/blog/grok-1.5v


相關推薦

2024-04-22

大模型V3.5版本,這也是國內首個基於全國產算力訓練的多模態認知大模型。其中訊飛星火V3.5的數學、語言理解和語音交互3大核心能力超越GPT-4 Turbo;代碼能力達到GPT-4 Turbo 96%,多模態理解達到GPT-4V 91%,成為國產最強多模態大模

2024-03-06

暴風雨前的寧靜。”熱衷於嘲諷OpenAI、看GoogleAI笑話的馬斯克,對Anthropic表現得相當友好,轉發Claude 3發佈的推文並評價說“印象深刻”。亞馬遜CEO安迪·賈西則開心地宣佈,亞馬遜雲科技(AWS)將提供基於Claude 3的服務。01三大

2023-11-21

項研究顯示,GPT-4做圖形推理題的準確率僅有33%。而具有多模態能力的GPT-4v表現更糟糕,隻能做對25%的題目。△虛線表示16項任務的平均表現這項實驗結果發表後,迅速在YC上引發廣泛熱議。贊同這項結果的網友表示,GPT確實不擅

2024-06-03

就能訓練出一個性能超越GPT-4V、Gemini Ultra、Claude Opus等的多模態大模型。然而,一位網友發現,Llama3-V的模型結構和代碼與出自清華系明星創業公司面壁智能的MiniCPM-Llama3-V 2.5幾乎一模一樣,隻是變量名有所變化。面對抄襲的指控

2023-11-16

個時間步驟,MM-Navigator都會得到一個屏幕截圖。作為一個多模態模型,GPT-4V接受圖像和文本作為輸入並產生文本輸出。在這裡,就是一步步讀屏幕截圖信息,輸出要操作的步驟。現在的問題就是:如何讓模型合理地計算出給定屏

2024-03-14

Chat“Yi-34B-Chat-0205”、200k超長上下文“Yi-34B-Chat-200K”、多模態交互“Yi-VL-Plus”模型。在全球多項權威評測榜單中,Yi 大模型表現優異,性能直追 GPT-4。此前,Yi 大模型 API已經小范圍開放內測,全球已有不少開發者申請使用,並

2024-05-27

快科技5月27日消息,埃隆馬斯克旗下的人工智能初創企業xAI近日宣佈,已經成功完成60億美元(約合435億元人民幣)的B輪融資,公司估值達到180億美元(約合1304億元人民幣)。本輪融資的主要投資者包括Valor Equity Partners、Vy Capit

2023-12-07

是實時錄制而是剪輯的。後來谷歌在一篇博客文章中解釋多模態交互過程,幾乎承認使用靜態圖片和多段提示詞拼湊,才能達成這樣的效果。但不管怎麼樣,谷歌Gemini的發佈還是給其他團隊很大信心,GPT-4從此不再是獨一無二、

2024-04-08

的浪潮奔騰不息,Ghost翻船的同時,L4迎來新的玩傢:馬斯克官宣,8月8日也就是四個月後,特斯拉Robotaxi將上線。預計車型將會是萬眾期待的Model 2車型,也就是“小鋼炮”。就在馬斯克官宣Robotaxi上線時間的兩個小時前,特斯拉

2023-11-04

-4V“自動上網”GPT-4V-Act,本質上是一個基於Web瀏覽器的AI多模態助手(Chromium Copilot)。它可以像人類一樣用鼠標、鍵盤和屏幕“查看”網頁界面,並通過網頁中的交互按鍵進行下一步操作。要實現這種效果,除GPT-4V以外,還用

2023-12-07

,專為高度復雜的任務而設計。普通用戶體驗 Gemini Ultra 的首個方式會是通過 Bard Advanced,Google將在明年年初推出 Bard Advanced。Google表示,未來將努力擴展 Gemini 的功能,包括在規劃和記憶方面的進步,以及增加上下文窗口以處理

2024-03-18

Analysis & Insights from Multimodal LLM Pre-training》,首次公佈多模態大模型MM1,展示該公司在AI方面的進展與實力。據悉,MM1最高參數量為300億,該模型支持增強的上下文學習和多圖像推理,在一些多模態基準測試中有較好表現。研

2023-06-01

模型及AI硬件新品發佈會上,360集團創始人周鴻禕指出,多模態大模型 物聯網將是下一個風口。周鴻禕表示,大模型的出現標志著通用人工智能時代的到來,大模型對於傳統人工智能而言是一場顛覆性的革命。在這場革命中,智

2023-11-14

上周,SamAltman在OpenAI首屆開發者大會放“大招”,而馬斯克,OpenAI曾經的聯合創始人,更是連夜發佈他新創辦的AI公司xAI的首款產品Grok——一款對標ChatGPT的聊天機器人。隨著Grok內測版的發佈,馬斯克真正進入生成式AI這條目前