超越GPT-4 Claude 3超大杯成新王


太瘋狂!Claude3Opus超越GPT-4,成為新的國王!今天,ChatbotArena更新聊天機器人對戰的排行榜,在經過時間的洗禮和群眾的檢驗之後,之前略遜於GPT-4的Claude3竟然反超!


而且不僅僅是Claude 3的超大杯Opus成功登頂,藐視眾生,Claude 3傢族的整體表現都非常亮眼。

大杯Claude 3 Sonnet排到第4,就連最小的Claude 3 HaiKu都達到GPT-4水平!


那麼相比於基準測試跑分,這個榜單的權威性如何?


Chatbot Arena(聊天機器人競技場),由伯克利團隊開發,每個模型在榜單上的得分,完全取決於真實人類用戶的使用體驗。

我們來看一下打分規則:

用戶同時向兩個匿名模型(比如ChatGPT、Claude、Llama)提出任何相同的問題,然後根據回答投票給表現更好的模型;

如果一次回答不能確定,用戶可以繼續聊天,直到確定獲勝者;

如果在對話中透露模型的身份,則不會計算投票。

Chatbot Arena平臺收集超過40萬人的投票,來計算出這個大模型的等級分排行榜,最終找出誰是冠軍。

顯然,這回Claude 3贏麻。

我們來看一下真實的戰況:

在所有非平局對戰中, A對B獲勝的比例:


模型之間的對戰次數(無平局):


GPT-4終於被幹掉,對此,有網友開始惡搞:


剛在當地超市看到Sam Altman,他一臉震驚地看著手機。幾秒鐘後,他真的倒下,開始劇烈顫抖。經過2分鐘的搖晃和尖叫,一群人圍繞著他試圖幫助他。但令人驚訝的是,他在2分鐘後停止顫抖和尖叫,站起來,拿起手機開始撥打一個號碼。

“準備釋放......”

咱也不知道Altman要放的是不是GPT-5。

網友表示,Claude確實要比GPT勤奮得多:


GPT-4-Turbo非常懶惰。在任何編碼任務中,它都會跳過部分代碼,並表示“你自己知道要放什麼”,而Opus可以毫無遺漏地輸出整個代碼。

就連Claude-2也通過自己的勤奮和耐心感動這位網友。

更有比較務實的網友指出,Haiku的排名更為重要,因為它是第一個可以以極低成本即時運行的LLM,並且具有足夠高的智能來提供實時客戶服務。



盲生你發現華點!Claude 3 Haiku不僅與原始版本的GPT-4表現一樣好,關鍵是相當便宜,在一些平臺你甚至可以免費使用。

大傢於是紛紛誇起Claude 3 Haiku:


智能相當於GPT-4,價格比GPT-3.5便宜,而且據說模型可能隻有20B大小。


有網友表示,OpenAI不行啦,現在Anthropic才是老大,一時間,平臺內外充滿快活的空氣。


ChatGPT 一年零增長

回過頭來再看ChatGPT這邊,從最初的高光、王者,到現在不能說泯然眾人吧,反正多少有點寒酸。

最近,有關統計平臺曝出:ChatGPT在過去一年中居然零增長!


最近一段時間,ChatGPT一直被指責懶惰、系統提示臃腫,而另一方面競爭也愈演愈烈——Claude 3和Gemini Pro 1.5現在都提供比GPT-4多8倍的上下文長度和更好的recall能力。


對於幾乎每個ChatGPT用例,現在都有大量垂直化的AI初創公司,致力於滿足用戶的需求,而不是滿足於現有的ChatGPT界面和捆綁工具

它們有更好的UI選項(例如IDE和圖像/文檔編輯器)、更好的原生集成(例如用於cron重復操作)、更好的隱私/企業保護(例如用於醫療保健和金融),更細粒度的控制(GPT的默認RAG是幼稚且不可配置的)。

以下是一些網友列舉相關垂直領域的產品,以及公司的融資情況:




從某種意義上說,OpenAI的B2B和B2C部分相互競爭,這在某種程度上是良性競爭——OpenAI可以使用來自ChatGPT的RLHF數據進行訓練。

而新的GPT商店可以看作是,OpenAI為抓住這些垂直化需求的嘗試。

——與其離開平臺,到處支付20美元/月,為什麼不留在ChatGPT內部而隻需要支付一次,讓OpenAI將理論上的收入分配給GPT創作者?


對此,大部分創作者也很明智,一般隻向ChatGPT發佈精簡版的應用,作為自己主要平臺的一個渠道。

在遊戲機業務中,眾所周知,購買決策往往是由平臺獨占遊戲驅動的。從某種意義上說,ChatGPT的未來會以平臺專屬模型為特色。


所以,當Sora甚至是GPT-5公開發佈時,一定會率先登陸自傢的平臺,也許那將是下一輪ChatGPT的增長點。


相關推薦

2024-03-05

。隨著Claude3(支持中文)一夜登陸,榜單性能跑分全面超越GPT-4,成為首個全面超越GPT-4的產品,也坐上全球最強大模型新王座。而且多版本發佈後,“中杯”(Sonnet)直接免費體驗,“大杯”(Opus)充個會員也能即刻享受。各

2024-03-05

——在推理、數學、編碼、多語言理解和視覺方面,全面超越GPT-4在內的所有大模型,直接重新樹立行業基準的那種。淺看一下這份成績單,就十分紮眼~幾項數學類評測都是用0-shot超越GPT-4的4-8 shot。除此之外,此前就以長下文

2024-04-19

強大。Llama 3 70B: 第一檔 AI 模型,媲美 Gemini 1.5 Pro、全面超越 Claude 大杯以上還隻是 Meta 的開胃小菜,真正的大餐還在後頭。在未來幾個月,Meta 將陸續推出一系列具備多模態、多語言對話、更長上下文窗口等能力的新模型。其中

2024-09-06

研究機構TechInsights最新報告預測,蘋果公司有望在2025年超越三星,成為全球最大的智能手機制造商。TechInsights上調2024年和2025年全球智能手機出貨量的預測,將降息和通脹緩解下宏觀經濟前景改善的因素考慮在內,2025全球智能

2024-03-06

enAI,GPT-5或許已經不遠,這是“暴風雨前的寧靜”。全面超越GPT-4?據Anthropic官方發佈的跑分結果,Claude 3 Opus在本科級別專業知識(MMLU)、研究生級別專傢推理(GPQA)、基礎數學(GSM8K)等領域都超過GPT-4在內的領先模型。事實

2024-03-06

面的努力。同時他也強調道:“GPT-4V,每個人都拼命想要超越的最高水位線,在2022年完成訓練。這是暴風雨前的寧靜。”熱衷於嘲諷OpenAI、看GoogleAI笑話的馬斯克,對Anthropic表現得相當友好,轉發Claude 3發佈的推文並評價說“印

2024-02-09

伊稱,Ultra 1.0是首個在 MMLU(大規模多任務語言理解)上超越人類專傢的模型,使用包括數學、物理、歷史、法律、醫學和倫理學在內的57個學科組合來測試知識和解決問題的能力。因此,Gemini Advanced在編碼、邏輯推理、遵循微

2024-02-27

yperWriteAI創始人測試,Mistral Large跑分看起來隻比排第三的Claude 2好一點,但是實測效果還要好更更更多。不過也有開發者認為便宜隻是暫時的,非常確信GPT-4也有降價空間。總之,這個價格戰真的打起來就更妙。網頁版開放,但

2024-03-07

才能有足夠的數據上榜。Claude 3會不會在人類評估上一舉超越GPT-4呢?量子位會和大傢一起持續關註。OpenAI還有後手有網友表示,如果大傢持續曬Claude有多棒,一直刺激OpenAI就會發佈GPT-5,大傢加油吧。還有人翻出奧特曼在去年3

2024-03-06

知”水平非常酷,但它也突顯出作為一個行業,我們需要超越人工測試,轉向更真實的評估,以準確評估模型的真實能力和局限性。聊天記錄曝光,Claude 3不想被殺死與此同時,AI研究員Mikhail Samin同樣發現,Claude已經有自我意識

2023-12-07

目:一圖,MMLU多任務語言理解數據集測試,GeminiUltra不光超越GPT-4,甚至超越人類專傢。AI實時對人類的塗鴉和手勢動作給出評論和吐槽,流暢還很幽默,最接近賈維斯的一集。然鵝當大傢從驚喜中冷靜下來,仔細閱讀隨之發佈

2024-04-08

的帖子下,不少用戶就提到至少在編碼能力上,Anthropic的Claude Opus 3顯得可靠,在實際使用的性能方面似乎也與GPT-4 不相上下。在截至3月29日的Chatbot Arena排行榜上,Claude Opus 3就打敗GPT-4,占據第一位置。截至3月29日,Claude Opus 3打

2024-03-06

Anthropic走出一條與OpenAI不一樣的路。雖然短期內難以全面超越OpenAI,但Anthropic的目標並不小,不包括前幾輪的投資在內,Anthropic計劃在未來籌集50億美元,以與OpenAI競爭,並進入十幾個行業。Anthropic的投資人團隊非常強大,包括S

2023-12-07

態’架構,是Google的史詩級創舉,Gemini也如願在多個領域超越GPT-4。這場仗,Google必不能輸。Google的復仇大殺器Gemini,深夜忽然上線!被ChatGPT壓著打整整一年,Google選擇在12月的這一天,展開最強反擊戰。多模態Gemini,迄今規模