自從2023年11月Grok首次亮相以來,馬斯克的xAI正在大模型領域不斷取得進步,向OpenAI等先行者發起進攻。在Grok-1開源後不到一個月,xAI的首個多模態模型就問世。昨天,xAI推出Grok-1.5V,該模型不僅能理解文本,還能處理文檔、圖表、截圖和照片中的內容。
官方博文表示:“Grok-1.5V 在許多領域都能媲美當前頂尖的多模態模型,從多學科推理到理解文檔、科學圖表、圖表、截圖和照片。” xAI 還表示,在接下來的幾個月裡,預計將在圖像、音頻和視頻等各種模態上顯著提高模型能力。
我們看到 Grok-1.5V 與 GPT-4V、Claude 3Sonnet、Claude 3 Opus 和 Gemini Pro 1.5 的測試對比。其中特別提到的是:“Grok 在理解物理世界方面的能力尤其令我們興奮。在我們新推出的 RealWorldQA 基準測試中,Grok 的表現優於同類產品。對於下面的所有數據集,我們都是在沒有思維鏈提示的情況下對 Grok 進行評估的。”
如果 Grok-1.5 能在類似於 Grok-1 的開源許可證下發佈,這將成為當下 LLM 競爭格局的一個重要節點。
Grok-1.5V 表現如何?
目前,Grok-1.5V 還沒有完全開放,但會很快提供給早期測試者和現有的 Grok 用戶。不過,博客中展示 Grok-1.5V 的七個示例。
第一個是將流程圖的白板草圖轉換為 Python 代碼:
Prompt:Can you translate this into Python code?(你能把它翻譯成 Python 代碼嗎?)
Grok:當然!您提供的流程圖描述一個簡單的競猜遊戲:計算機生成一個隨機數,用戶必須猜出它。下面是表示流程圖中邏輯的 Python 代碼:
import random
def guess_number(): # Generate a random number between 1 and 10
target = random.randint(1, 10)
while True:
guess = int(input("Guess a number between 1 and 10:"))
if guess == target:
print("You won!")
break
else:
print("Wrong guess, try again!")
if __name__ =="__main__":
guess_number()
第二個是計算卡路裡:
Prompt:How many calories are there in 5 slices of this?(5 片有多少卡路裡?)
Grok:如果一份是 3 片,含有 60 卡路裡,那麼 5 片就含有大約 100 卡路裡。計算方法是首先確定每片的熱量:60 卡 / 3 片 = 20 卡 / 片。然後,將每片的卡路裡乘以片數:每片 20 卡路裡 * 5 片 = 100 卡路裡。
第三個是將草圖轉化為睡前故事:
Prompt:My son drew this, can you tell a short bedtime story based on his drawing?(這是我兒子畫的,你能根據他的畫講一個簡短的睡前故事嗎?)
Grok:
很久很久以前,在一個充滿冒險和奇跡的國度裡,有一個勇敢的小男孩,名叫提米。提米和傢人住在舒適的小房子裡,他最喜歡的事情就是探索周圍的世界。
在一個陽光明媚的日子裡,提米決定去附近的森林探險。他帶上自己最喜歡的零食、指南針和他最信任的筆記本,準備把看到的所有令人興奮的事物都畫下來。
當 Timmy 走進森林深處時,他發現一條在陽光下閃閃發光的神奇河流。這條河是如此迷人,以至於提米決定做一艘小紙船,順流而下,作為給森林精靈的特別訊息。
提米小心翼翼地折好紙船,在上面畫一個笑臉,希望能給森林精靈帶來歡樂。然後,他把小船放在河面上,看著小船載著他的友誼和對大自然的愛漂走。
夕陽西下,提米知道是時候回傢。他為自己在森林裡度過的神奇的一天感到慶幸,他知道自己將永遠銘記這次探險。
回到傢後,提米和傢人分享他的故事,傢人聽到他在森林裡度過的神奇一天都非常高興。他們一致認為,提米勇敢、善良的精神是一種真正的激勵,他們知道,提米今後還會有更多精彩的冒險經歷。
就這樣,帶著滿心的愛和滿腦子的夢想,提米漸漸進入夢鄉,他渴望發現在他的想象世界裡還有什麼新的冒險在等著他。
第四個是解釋梗圖:
Prompt:I don't get it, please explain(我不理解,啥意思?)
Grok:
這幅圖幽默地將初創公司和大公司作對比。在標有"初創企業"的左側,有一群人在一起挖洞。他們都在積極參與,洞已經挖得很深。
在標有"大公司"的右側,有一群人圍著一個洞站著。然而,與初創公司不同的是,隻有一個人真正在挖洞,其他人都在觀看或從事其他活動。
這幅圖的幽默感來自於對初創企業和大公司之間差異的誇大。在初創公司,人們往往有一種緊迫感,希望每個人都能直接為手頭的任務做出貢獻。相比之下,大公司往往被描述為官僚主義更嚴重,所有團隊成員對每個項目的直接參與更少。
第五個是將表格轉換為 CSV 文件格式:
Prompt:Please convert this table to csv.(請將此表轉換為 csv。)
Grok:
medal,name,sport,event,date
1 gold,El Amin Chentouf,Athletics,Men's marathon - T13,11 September
1 gold,Mohamed Amguoun,Athletics,Men's 400m - T13,15 September
1 gold,Azeddine Nouiri,Athletics,Men's shot put - T34,15 September
2 silver,Mahdi Afri,Athletics,Men's 400m - T12,9 September
2 silver,El Amin Chentouf,Athletics,Men's 5000m - T13,15 September
3 bronze,Mahdi Afri,Athletics,Men's 200m - T12,17 September
3 bronze,Mohamed Lahna,Paratriathlon,Men's PT2,10 September
CSV 格式不支持樣式或格式設置,因此信息以純文本格式呈現。
第六個是辨別木頭的腐朽程度:
Prompt:These holes are appearing around the screws in my deck. Is it rotten? Should I get my boards replaced?(這些孔出現在我的甲板上的螺釘周圍。是不是爛?我應該更換嗎?)
Grok:
甲板上的木材似乎已經開始腐爛。這表現在螺絲周圍出現孔洞,這是木材腐爛的常見跡象。
為確保露臺的安全和使用壽命,建議更換受影響的木板。這將有助於防止其受到進一步損壞,並保持其結構的完整性。
如果您不確定如何更換木板,咨詢專業的露臺建造商或承包商可能會有所幫助。他們將能夠評估損壞的程度,並就最佳行動方案向您提供專傢建議。
第七個是解決編程問題:
Prompt:Can you write Python code that solves this?(你能編寫 Python 代碼來解決這個問題嗎?)
Grok 回復如下:
def find_triplets(nums):
result = []
nums.sort()
for i in range(len(nums) - 2):
if i > 0 and nums[i] == nums[i - 1]:
continue
target = -nums[i]
left = i + 1
right = len(nums) - 1
while left < right:
if nums[left] + nums[right] == target:
result.append([-target, nums[left], nums[right]])
left += 1
right -= 1
while left < right and nums[left] == nums[left - 1]:
left += 1
while left < right and nums[right] == nums[right + 1]:
right -= 1
elif nums[left] + nums[right] < target:
left += 1
else:
right -= 1
return result
RealWorldQA 基準
本次發佈還有一個亮點:xAI 推出一個新的基準“RealWorldQA”。
下載地址:https://data.x.ai/realworldqa.zip
“為開發有用的真實世界人工智能助手,提高模型對物理世界的理解至關重要。”xAI 希望借助該基準更好地評估多模態模型的基本真實世界空間理解能力。“雖然當前基準中的許多示例對人類來說相對容易,但它們往往對前沿模型構成挑戰。”
目前,RealWorldQA 包含 700 多張圖片,每張圖片都有一個問題和易於驗證的答案。
在真實世界的圖像外,該數據集還包括從車輛上拍攝的匿名圖像。這對於自動駕駛領域來說,或許是個好消息。
巧合的是,微軟研究院前段時間更新跨語言、模態、模型和任務的基準測試 MEGAVERSE,包含 22 個數據集,涵蓋 83 種語言(包括資源匱乏的非洲語言)。微軟還在基準測試中加入兩個多模態數據集,並比較 LLaVA 模型 GPT-4-Vision 和 Gemini-Pro-Vision 的性能。
Meta 在前幾天也開源衡量人工智能系統具體問答能力的基準數據集 OpenEQA,包含傢庭和辦公室等 180 多種不同現實環境的 1600 多個問題,跨越七個類別,全面測試 AI 在物體和屬性識別、空間和功能推理以及常識知識等技能方面的能力,加深大模型對現實世界的理解。
即使是最先進的 AI 模型,如 GPT-4V,在 OpenEQA 上也難以與人類表現相媲美。OpenEQA 是衡量人工智能系統理解和回答現實世界問題能力的新基準。
在這些研究的推動下,我們可以期待一下 2024 年大模型在現實世界任務取得更多的進展。
參考鏈接:https://x.ai/blog/grok-1.5v