新測試基準發佈 最強開源Llama 3尷尬


如果試題太簡單,學霸和學渣都能考90分,拉不開差距……隨著Claude3、Llama3甚至之後GPT-5等更強模型發佈,業界急需一款更難、更有區分度的基準測試。大模型競技場背後組織LMSYS推出下一代基準測試Arena-Hard,引起廣泛關註。

Llama 3的兩個指令微調版本實力到底如何,也有最新參考。


與之前大傢分數都相近的MT Bench相比,Arena-Hard區分度從22.6%提升到87.4%,孰強孰弱一目然。

Arena-Hard利用競技場實時人類數據構建,與人類偏好一致率也高達89.1%。

除上面兩個指標都達到SOTA之外,還有一個額外的好處:

實時更新的測試數據包含人類新想出的、AI在訓練階段從未見過的提示詞,減輕潛在的數據泄露。

並且新模型發佈後,無需再等待一周左右時間讓人類用戶參與投票,隻需花費25美元快速運行測試管線,即可得到結果。

有網友評價,使用真實用戶提示詞而不是高中考試來測試,真的很重要。


新基準測試如何運作?

簡單來說,通過大模型競技場20萬個用戶查詢中,挑選500個高質量提示詞作為測試集。

首先,挑選過程中確保多樣性,也就是測試集應涵蓋廣泛的現實世界話題。

為確保這一點,團隊采用BERTopic中主題建模管道,首先使用OpenAI的嵌入模型(text-embedding-3-small)轉換每個提示,使用 UMAP 降低維度,並使用基於層次結構的模型聚類算法 (HDBSCAN) 來識別聚類,最後使用GPT-4-turbo進行匯總。


同時確保入選的提示詞具有高質量,有七個關鍵指標來衡量:

-具體性:提示詞是否要求特定的輸出?

-領域知識:提示詞是否涵蓋一個或多個特定領域?

-復雜性:提示詞是否有多層推理、組成部分或變量?

-解決問題:提示詞是否直接讓AI展示主動解決問題的能力?

-創造力:提示詞是否涉及解決問題的一定程度的創造力?

-技術準確性:提示詞是否要求響應具有技術準確性?

-實際應用:提示詞是否與實際應用相關?


使用GPT-3.5-Turbo和GPT-4-Turbo對每個提示進行從 0 到 7 的註釋,判斷滿足多少個條件。然後根據提示的平均得分給每個聚類評分。

高質量的問題通常與有挑戰性的話題或任務相關,比如遊戲開發或數學證明。


新基準測試準嗎?

Arena-Hard目前還有一個弱點:使用GPT-4做裁判更偏好自己的輸出。官方也給出相應提示。

可以看出,最新兩個版本的GPT-4分數高過Claude 3 Opus一大截,但在人類投票分數中差距並沒有那麼明顯。


其實關於這一點,最近已經有研究論證,前沿模型都會偏好自己的輸出。


研究團隊還發現,AI天生就可以判斷出一段文字是不是自己寫的,經過微調後自我識別的能力還能增強,並且自我識別能力與自我偏好線性相關。


那麼使用Claude 3來打分會使結果產生什麼變化?LMSYS也做相關實驗。

首先,Claude系列的分數確實會提高。


但令人驚訝的是,它更喜歡幾種開放模型如Mixtral和零一萬物Yi,甚至對GPT-3.5的評分都有明顯提高。

總體而言,使用Claude 3打分的區分度和與人類結果的一致性都不如GPT-4。


所以也有很多網友建議,使用多個大模型來綜合打分。


除此之外,團隊還做更多消融實驗來驗證新基準測試的有效性。

比如在提示詞中加入“讓答案盡可能詳盡”,平均輸出長度更高,分數確實會提高。

但把提示詞換成“喜歡閑聊”,平均輸出長度也有提高,但分數提升就不明顯。


此外在實驗過程中還有很多有意思的發現。

比如GPT-4來打分非常嚴格,如果回答中有錯誤會狠狠扣分;而Claude 3即使識別出小錯誤也會寬大處理。

對於代碼問題,Claude 3傾向於提供簡單結構、不依賴外部代碼庫,能幫助人類學習編程的答案;而GPT-4-Turbo更傾向最實用的答案,不管其教育價值如何。

另外即使設置溫度為0,GPT-4-Turbo也可能產生略有不同的判斷。

從層次結構可視化的前64個聚類中也可以看出,大模型競技場用戶的提問質量和多樣性確實是高。


這裡面也許就有你的貢獻。

Arena-Hard GitHub:

https://github.com/lm-sys/arena-hard

Arena-Hard HuggingFace:

https://huggingface.co/spaces/lmsys/arena-hard-browser

大模型競技場:

https://arena.lmsys.org

參考鏈接:

[1]https://x.com/lmsysorg/status/1782179997622649330

[2]https://lmsys.org/blog/2024-04-19-arena-hard/


相關推薦

2024-02-27

7B模型在涵蓋一般語言理解、推理、數學和編碼的8項基準測試中,性能已經超越Llama 2 7B和13B!並且,它也超越Mistral 7B模型的性能,尤其是在數學、科學和編碼相關任務中。在安全性方面,經過指令微調的Gemma-2B IT和 Gemma-7B IT模

2024-04-19

能力取得突破性的提升,使其更加靈活和易於使用。基準測試結果顯示,Llama 3 8B 在 MMLU、GPQA、HumanEval 等測試的得分遠超 Google Gemma 7B 以及 Mistral 7B Instruct。用紮克伯格的話來說,最小的 Llama 3 基本上與最大的 Llama 2 一樣強大。Ll

2023-12-23

通用性、智能性的38項具體評測維度,是基於官方大模型測試基準的權威評測。

2024-03-28

個參數,在語言理解、編程和數學技能等關鍵領域的基準測試中,其性能超過其他領先的開源人工智能模型,包括Meta的Llama2-70B和法國初創企業MixtralAI的模型。雖然DBRX在某些原始功能上還無法與OpenAI的GPT-4相比,但Databricks高管表

2024-02-22

本。性能方面,Google稱Gemma在MMLU、BBH、HumanEval等八項基準測試集上大幅超過Llama 2。Gemma在基準測試上與Llama 2的跑分對比(圖源:Google)在發佈權重的同時,Google還推出Responsible Generative AI Toolkit等一系列工具,為使用Gemma創建更安

2024-02-22

盡管體量較小,但Google表示 Gemma 模型已經“在關鍵基準測試中明顯超越更大的模型”,對比的包括 Llama-2 7B 和 13B,以及風頭正勁的 Mistral 7B。而且 Gemma“能夠直接在開發人員的筆記本電腦或臺式電腦上運行”。除輕量級模型之

2024-04-19

更恐怖,極有可能超過當前的閉源王Llama3在各種行業基準測試中表現驚艷,廣泛支持各種場景。接下來幾個月,Meta將陸續引入新的功能,包括多語言對話、多模態、更長的上下文和更強整體核心性能,並將與社區分享研究論文

2024-04-19

用於測量知識)、ARC(用於測量技能習得)和 DROP(用於測試模型對文本塊的推理能力)等流行的人工智能基準上的得分。正如我們之前所寫,這些基準的實用性和有效性還有待商榷。但無論好壞,它們仍然是 Meta 等人工智能玩

2024-03-18

數)的模型,需要有足夠GPU內存的機器才能使用示例代碼測試模型。網友表示這可能需要一臺擁有628 GB GPU內存的機器。此外,該存儲庫中MoE層的實現效率並不高,之所以選擇該實現是為避免需要自定義內核來驗證模型的正確性

2023-11-09

專傢的信息被官網刪除。當時,SuperCLUE隻用幾百道題進行測試,被人質疑不夠客觀。而在國外,早就有一個叫做SuperGLUE的權威榜單,二者名稱相似度極高,讓人傻傻分不清楚。後來,SuperCLUE對測評標準和題目數量進行完善,日漸

2023-02-25

的小模型,可以勝過大模型(比如,LLaMA-13B在大多數基準測試中優於175B的GPT-3);2. LLaMA-65B與更大的Chinchilla70B和PaLM-540B不相上下。最後,LeCun表示,Meta致力於開放研究,並預備在GPL v3許可證下,向科研界開源所有模型。LLaMA:參

2024-02-08

AI 實驗手段——它是一個沙盒,早期開放給少部分用戶,測試最前言的 AI for Advertising 功能,主要是生成式人工智能,比如自動產生多個版本的廣告文案,基於文本生成圖像,根據 Meta 旗下各個平臺的資源位要求,自動調整圖片

2022-09-21

子產品質量評估的國際領導者於今日宣佈更新其智能手機測試基準和評分系統,旨在將其科學的評測體系與技術趨勢同頻共振,離用戶更近一步。依循更新的測試基準和評分系統,當前全部的分數將於法國時間2022年9月21日開始

2024-02-27

理任務,包括文本理解、轉換和代碼生成。在AI理解能力測試基準MMLU的對比中,Mistral Large的得分僅次於GPT-4,略好於Anthropic開發的Claude 2。至於谷歌的Gemini Pro以及Meta的LLaMA 2 70B模型,則被甩開一個身位。(來源:Mistral AI)據悉