馬斯克的首款多模態大模型來 GPT-4V又被超越一次

2024-04-15 來自機器之心發表於業界精選

自從2023年11月Grok首次亮相以來，馬斯克的xAI正在大模型領域不斷取得進步，向OpenAI等先行者發起進攻。在Grok-1開源後不到一個月，xAI的首個多模態模型就問世。昨天，xAI推出Grok-1.5V，該模型不僅能理解文本，還能處理文檔、圖表、截圖和照片中的內容。

官方博文表示：“Grok-1.5V 在許多領域都能媲美當前頂尖的多模態模型，從多學科推理到理解文檔、科學圖表、圖表、截圖和照片。” xAI 還表示，在接下來的幾個月裡，預計將在圖像、音頻和視頻等各種模態上顯著提高模型能力。

我們看到 Grok-1.5V 與 GPT-4V、Claude 3Sonnet、Claude 3 Opus 和 Gemini Pro 1.5 的測試對比。其中特別提到的是：“Grok 在理解物理世界方面的能力尤其令我們興奮。在我們新推出的 RealWorldQA 基準測試中，Grok 的表現優於同類產品。對於下面的所有數據集，我們都是在沒有思維鏈提示的情況下對 Grok 進行評估的。”

如果 Grok-1.5 能在類似於 Grok-1 的開源許可證下發佈，這將成為當下 LLM 競爭格局的一個重要節點。

Grok-1.5V 表現如何？

目前，Grok-1.5V 還沒有完全開放，但會很快提供給早期測試者和現有的 Grok 用戶。不過，博客中展示 Grok-1.5V 的七個示例。

第一個是將流程圖的白板草圖轉換為 Python 代碼：

Prompt：Can you translate this into Python code?（你能把它翻譯成 Python 代碼嗎？）

Grok：當然！您提供的流程圖描述一個簡單的競猜遊戲：計算機生成一個隨機數，用戶必須猜出它。下面是表示流程圖中邏輯的 Python 代碼：

import random

def guess_number(): # Generate a random number between 1 and 10

target = random.randint(1, 10)

while True:guess = int(input("Guess a number between 1 and 10:"))

if guess == target:print("You won!")breakelse:print("Wrong guess, try again!")

if __name__ =="__main__":guess_number()

第二個是計算卡路裡：

Prompt：How many calories are there in 5 slices of this?（5 片有多少卡路裡？）

Grok：如果一份是 3 片，含有 60 卡路裡，那麼 5 片就含有大約 100 卡路裡。計算方法是首先確定每片的熱量：60 卡 / 3 片 = 20 卡 / 片。然後，將每片的卡路裡乘以片數：每片 20 卡路裡 * 5 片 = 100 卡路裡。

第三個是將草圖轉化為睡前故事：

Prompt：My son drew this, can you tell a short bedtime story based on his drawing?（這是我兒子畫的，你能根據他的畫講一個簡短的睡前故事嗎？）

Grok：

很久很久以前，在一個充滿冒險和奇跡的國度裡，有一個勇敢的小男孩，名叫提米。提米和傢人住在舒適的小房子裡，他最喜歡的事情就是探索周圍的世界。

在一個陽光明媚的日子裡，提米決定去附近的森林探險。他帶上自己最喜歡的零食、指南針和他最信任的筆記本，準備把看到的所有令人興奮的事物都畫下來。

當 Timmy 走進森林深處時，他發現一條在陽光下閃閃發光的神奇河流。這條河是如此迷人，以至於提米決定做一艘小紙船，順流而下，作為給森林精靈的特別訊息。

提米小心翼翼地折好紙船，在上面畫一個笑臉，希望能給森林精靈帶來歡樂。然後，他把小船放在河面上，看著小船載著他的友誼和對大自然的愛漂走。

夕陽西下，提米知道是時候回傢。他為自己在森林裡度過的神奇的一天感到慶幸，他知道自己將永遠銘記這次探險。

回到傢後，提米和傢人分享他的故事，傢人聽到他在森林裡度過的神奇一天都非常高興。他們一致認為，提米勇敢、善良的精神是一種真正的激勵，他們知道，提米今後還會有更多精彩的冒險經歷。

就這樣，帶著滿心的愛和滿腦子的夢想，提米漸漸進入夢鄉，他渴望發現在他的想象世界裡還有什麼新的冒險在等著他。

第四個是解釋梗圖：

Prompt：I don't get it, please explain（我不理解，啥意思？）

Grok：

這幅圖幽默地將初創公司和大公司作對比。在標有"初創企業"的左側，有一群人在一起挖洞。他們都在積極參與，洞已經挖得很深。

在標有"大公司"的右側，有一群人圍著一個洞站著。然而，與初創公司不同的是，隻有一個人真正在挖洞，其他人都在觀看或從事其他活動。

這幅圖的幽默感來自於對初創企業和大公司之間差異的誇大。在初創公司，人們往往有一種緊迫感，希望每個人都能直接為手頭的任務做出貢獻。相比之下，大公司往往被描述為官僚主義更嚴重，所有團隊成員對每個項目的直接參與更少。

第五個是將表格轉換為 CSV 文件格式：

Prompt：Please convert this table to csv.（請將此表轉換為 csv。）

Grok：

medal,name,sport,event,date1 gold,El Amin Chentouf,Athletics,Men's marathon - T13,11 September1 gold,Mohamed Amguoun,Athletics,Men's 400m - T13,15 September1 gold,Azeddine Nouiri,Athletics,Men's shot put - T34,15 September2 silver,Mahdi Afri,Athletics,Men's 400m - T12,9 September2 silver,El Amin Chentouf,Athletics,Men's 5000m - T13,15 September3 bronze,Mahdi Afri,Athletics,Men's 200m - T12,17 September3 bronze,Mohamed Lahna,Paratriathlon,Men's PT2,10 September

CSV 格式不支持樣式或格式設置，因此信息以純文本格式呈現。

第六個是辨別木頭的腐朽程度：

Prompt：These holes are appearing around the screws in my deck. Is it rotten? Should I get my boards replaced?（這些孔出現在我的甲板上的螺釘周圍。是不是爛？我應該更換嗎？）

Grok：

甲板上的木材似乎已經開始腐爛。這表現在螺絲周圍出現孔洞，這是木材腐爛的常見跡象。

為確保露臺的安全和使用壽命，建議更換受影響的木板。這將有助於防止其受到進一步損壞，並保持其結構的完整性。

如果您不確定如何更換木板，咨詢專業的露臺建造商或承包商可能會有所幫助。他們將能夠評估損壞的程度，並就最佳行動方案向您提供專傢建議。

第七個是解決編程問題：

Prompt：Can you write Python code that solves this?（你能編寫 Python 代碼來解決這個問題嗎？）

Grok 回復如下：

def find_triplets(nums):result = []nums.sort()for i in range(len(nums) - 2):if i > 0 and nums[i] == nums[i - 1]:continuetarget = -nums[i]left = i + 1right = len(nums) - 1while left < right:if nums[left] + nums[right] == target:result.append([-target, nums[left], nums[right]])left += 1right -= 1while left < right and nums[left] == nums[left - 1]:left += 1while left < right and nums[right] == nums[right + 1]:right -= 1elif nums[left] + nums[right] < target:left += 1else:right -= 1return result

RealWorldQA 基準

本次發佈還有一個亮點：xAI 推出一個新的基準“RealWorldQA”。

下載地址：https://data.x.ai/realworldqa.zip

“為開發有用的真實世界人工智能助手，提高模型對物理世界的理解至關重要。”xAI 希望借助該基準更好地評估多模態模型的基本真實世界空間理解能力。“雖然當前基準中的許多示例對人類來說相對容易，但它們往往對前沿模型構成挑戰。”

目前，RealWorldQA 包含 700 多張圖片，每張圖片都有一個問題和易於驗證的答案。

在真實世界的圖像外，該數據集還包括從車輛上拍攝的匿名圖像。這對於自動駕駛領域來說，或許是個好消息。

巧合的是，微軟研究院前段時間更新跨語言、模態、模型和任務的基準測試 MEGAVERSE，包含 22 個數據集，涵蓋 83 種語言（包括資源匱乏的非洲語言）。微軟還在基準測試中加入兩個多模態數據集，並比較 LLaVA 模型 GPT-4-Vision 和 Gemini-Pro-Vision 的性能。

Meta 在前幾天也開源衡量人工智能系統具體問答能力的基準數據集 OpenEQA，包含傢庭和辦公室等 180 多種不同現實環境的 1600 多個問題，跨越七個類別，全面測試 AI 在物體和屬性識別、空間和功能推理以及常識知識等技能方面的能力，加深大模型對現實世界的理解。

即使是最先進的 AI 模型，如 GPT-4V，在 OpenEQA 上也難以與人類表現相媲美。OpenEQA 是衡量人工智能系統理解和回答現實世界問題能力的新基準。

在這些研究的推動下，我們可以期待一下 2024 年大模型在現實世界任務取得更多的進展。

參考鏈接：https://x.ai/blog/grok-1.5v

馬斯克的首款多模態大模型來 GPT-4V又被超越一次

相關推薦

官宣！訊飛星火V3.5更新版本4月26日發佈：上新三大能力

制衡OpenAI，Claude 3給AI創企吃顆定心丸

GPT-4不會圖形推理？“放水”後準確率依然隻有33%

一模一樣！斯坦福AI團隊被曝抄襲中國國產大模型：直接刪庫跑路

Siri終結的開始？用GPT-4V“操縱”iPhone 無需訓練可完成任意指令

零一萬物發佈Yi大模型API開放平臺首批開放3款大模型

馬斯克xAI官宣435億元B輪融資：估值已突破1300億！

谷歌Gemini剛發就惹質疑：測試標準有失偏頗、效果視頻疑剪輯

OpenAI投後5個月自動駕駛公司Ghost突然倒閉成立七年0交付

GPT-4V學會用鍵鼠上網人類靜靜地看它發帖玩遊戲

超越GPT4！谷歌大殺器終於來最大規模Gemini震撼發佈

蘋果推出300億參數多模態大模型全面轉向生成式AI

周鴻禕：多模態大模型物聯網是下一個風口

馬斯克的 ChatGPT“Grok” 用起來到底怎麼樣？