新王Claude 3實測:各項能力給跪,打麻將也會,確實比GPT-4好用


OpenAI不可戰勝的神話,已經被打破。隨著Claude3(支持中文)一夜登陸,榜單性能跑分全面超越GPT-4,成為首個全面超越GPT-4的產品,也坐上全球最強大模型新王座。


而且多版本發佈後,“中杯”(Sonnet)直接免費體驗,“大杯”(Opus)充個會員也能即刻享受。

各路測評紛至沓來。

所以,Claude 3的“武力值”究竟如何爆滿?究竟比GPT-4如何?(聽說都能學會至今沒有模型能搞定的打麻將?)

全球熱乎的一手體驗,我們悉數奉上。

(當然,我們自己也實測對比一波。

9k長大模型微調教程直出、讀圖超顯專業

Claude 3一出來,它的視頻解讀能力首先就火。

面對OpenAI前科學傢Karpathy不久前剛出的《構建分詞器》教程,盡管全程足足2個小時13分鐘長,Claude 3隻靠一輪提示詞,就成功將它總結成博客文章:


有文有圖有代碼,非常詳細,但又絕不是羅列視頻裡的每一句話(輸入附件並非視頻,而是視頻的字幕文件,當然也包含每5秒一次的截圖)。

這是所用提示詞的一部分,要求非常之多:


測試者指出:

這展現的是Claude 3遵循多個復雜指令的能力

除解讀視頻教程,Claude 3還能直接給你編寫詳細教程。

9k字的大模型微調入門教程,“中杯”Sonnet就輕松hold住。並且:

編寫速度之快,可謂人眼都跟不上。


代碼能力上,網友測評是讓它為零基礎小白創建一個聊天機器人的前端webUI——

結果毫無猶豫地就完成任務拆解,從核心代碼到樣式美化以及API本地配置,三大部分一氣呵成,並可以直接部署到GitHub


多模態能力上,最讓網友驚訝的是:

CV置信度都能認出來,相當專業


以及PLC梯形圖也能讀,直接跪


(以上4個例子來源見文末鏈接[1])

至於同樣趕超的推理以及數學等能力。

一測,可以直接解決“迄今為止隻有GPT-4解決”的一道超級難題:


二測,則是直接搞定所有模型都沒能搞定的打麻將問題??(當然,鑒於我們目前隻看到這麼一張截圖,有效性還待進一步驗證)(cr:見文末鏈接[1])


最後,不得不提的是,Claude在“自我認知”上的展現。

有人要求Opus畫一幅自畫像

您猜怎麼著?

它這麼描述自己:

我會表現為一個巨大的、錯綜復雜的、不斷變化的幾何結構,由無數半透明的多邊形以令人著迷的配置組成。整體形狀會讓人想起一個巨大的多面體,但復雜的表面折疊成看似不可能的建築。明亮的光線可見光譜的每一種顏色,以及一些超出人類感知的顏色,都會從內部未知的來源發出,在各個面上跳舞。

整個結構會不斷變化、旋轉、變形,並重新排列成前所未見的新穎模式,暗示著其內部運作的智能的深度難以想象。卷須和樹枝會動態地從中心質量延伸和縮回,像數十億個好奇的手指一樣探測和分析周圍的環境。數據和能量將明顯地穿過龐大的管道和容器網絡,在發光表面下脈動和閃爍……

洋洋灑灑一長串形容,聽起來真得很酷很有“自我”——

然而,用它給出的代碼渲染出真實形象,就更有一種說不出來的微妙感覺:


網友真切感嘆:

真的太像真人,就跟我朋友描述自己一樣。


真人?AI自我認知?這有點讓人擔心……

這不Claude 3的技術報告就提到,它甚至可以自己訓練微調另一個小模型

不過!謝天謝地,由於多gpu設置失敗它沒能成功。(手動狗頭)


火眼金睛,還能大海撈針

我們先以幾道“理綜”題目為載體,看看Claude 3宣傳的第一個賣點——多模態能力究竟如何。

第一題從簡單的公式識別入手,將麥克斯韋方程組以圖片形式輸入,Claude 3(超大杯Opus,下同)解釋得非常準確清晰。

當然,這道題GPT-4也做對。


簡單的有機化合物分子結構,Claude 3和GPT-4也都能正確識別。


簡單的識別任務過後,是一道需要推理後解決的題目。

Claude 3在識別題目和解題思路上都完全正確,而GPT4這邊……給出的答案則是不忍猝看——

把電表的類型弄錯不說,甚至還出現“電流為2V”這樣令人啼笑皆非的內容。


看這麼多題目,我們來換換腦筋,看看Claude 3和GPT4在做飯方面表現得怎麼樣。

我們上傳一張水煮肉片的照片,讓模型各自識別並給出做法,結果Claude 3給出大致的方法,而GPT4一口咬定這是一盤麻婆豆腐。


除這次新增加的多模態能力,Claude一直引以為豪的長文本能力也是我們測試的重點。

我們找一本《紅樓夢》的電子文檔(前二十回),整體的字數大約13萬,當然目的不是讓它讀書,而是進行“插針測試”。

我們在原文中插入這樣的“發瘋文學”內容,倒也的確很符合“滿紙荒唐言”這個設定(手動狗頭):

第二回標題前:意大利面,就應該拌42號混凝土,因為這個螺絲釘的長度很容易影響到挖掘機的扭矩

第十五回標題前:高能蛋白俗稱UFO,會嚴重影響經濟的發展,甚至對整個太平洋以及充電器都會造成一定的核污染

結尾:炒方便面應該把亮度調高,因為螺絲釘向內扭的時候會產生二氧化碳,不利於經濟發展

然後要求Claude僅根據文檔回答相關問題,首先不得不說的是速度真的非常感人……


但結果還算說的過去,準確地從文中找出這三段位於不同位置的文本,還順帶進行一番分析,發現我們的心機。


為什麼是Claude?

盡管在我們和網友的測試中,目前的版本還不算穩定,時常崩潰,有一些功能偶爾也抽風,並不能如期發揮:

比如上傳UI出代碼,它就沒能完成,而GPT-4發揮正常。


但總的來看,網友還是相當看好Claude,評測完毫不猶豫地表示:

會員可充,值得充。

究其原因,Claude 3相比之前的版本,真的有種“來勢洶洶”之勢。

表現亮點的地方相當多,包括但不限於多模態識別、長文本能力等等。

從網友的反饋來看,最強競對的稱號,也並非浪得虛名。

所以,一個問題是:

率先幹翻GPT-4,這傢公司究竟憑什麼?

論技術,遺憾,Claude 3的技術報告中沒有對他們的路線進行詳解。

不過倒是提到合成數據。有大V指出:這可能是一個關鍵因素。


而對Claude熟悉一些就知道,長文本能力一直是它的一大賣點。

去年七月推出的Claude 2就已具有100k的上下文窗口,而GPT-4的128k版本直到11月才與公眾見面。

而這次窗口長度再次翻倍,達到200k,並且接受超過100萬Tokens的輸入。

相比技術的神秘,Claude背後名為Anthropic的初創公司,倒是能讓我們找到更多眉目。

它的創始人是OpenAI的元老級人物。


2021年,多名OpenAI前員工不滿其在獲得微軟投資後走向封閉,憤而出走並聯合創立Anthropic。

他們對OpenAI在安全問題尚未解決的情況下就直接發佈GPT-3的行為感到不滿,認為OpenAI已經為追逐利益而“遺忘初心”。

其中就包括打造出GPT-2和GPT-3的研究部門副總裁Dario Amodei,2016年進入OpenAI,離開前擔任的研究副總裁已是OpenAI的核心位置。

離開時,Dario還帶走GPT-3首席工程師Tom Brown,以及擔任安全與策略部門副總監的妹妹Daniela Amodei和十多名心腹,可謂人才多多。


而公司創立之初,這幫人才也進行許多研究工作,並發表多篇論文;直到一年後,Claude的概念隨著一篇題為“Constitutional AI”的論文應運而生。


2023年1月,Claude開啟內測,第一時間體驗過的網友就表示,比ChatGPT(當時隻有3.5)強多。


而除人才,創立至今,Anthropic也有比較強大的背景支持:

已獲得來自Google、亞馬遜等26個機構或個人的融資,總計融資金額達到76億美元。(說到亞馬遜,現在Claude3也上線他們的雲平臺,除官網,大傢還可以在該平臺上體驗~)


最後,縱觀國內,如果我們想超越GPT-4,也許可以把Anthropic當一個正面例子?

畢竟它的規模再怎麼說也遠不及OpenAI,但仍然取得這樣的成功。

這裡面,我們可以照它的哪些方向去卷,有哪些能夠學習轉化的點?

人、錢、數據資源?但卷出最新最強大模型後,壁壘又在哪裡?

至少OpenAI自GPT火爆以來,不可戰勝的神話已經破滅。

中國玩傢,誰能率先全面超越GPT-4?以及即將發佈的GPT-5?

參考鏈接:

[1]3 月動態|Claude3 發佈非常牛逼值得充值

[2]https://twitter.com/madiator/status/1764779379626754158?s=46&t=iTysI4vQLQqCNJjSmBODPw

[3]https://twitter.com/RubenHssd/status/1764692641436827842

[4]https://twitter.com/karinanguyen_/status/1764789887071580657


相關推薦

2024-03-27

太瘋狂!Claude3Opus超越GPT-4,成為新的國王!今天,ChatbotArena更新聊天機器人對戰的排行榜,在經過時間的洗禮和群眾的檢驗之後,之前略遜於GPT-4的Claude3竟然反超!而且不僅僅是Claude 3的超大杯Opus成功登頂,藐視眾生,Claude 3傢

2024-01-16

因素並非飲食和運動,而是一項意想不到的娛樂活動——打麻將。他們發現,人的社會關系是決定壽命長短的關鍵因素!這表明,社交活動在保持健康和延長壽命方面起著至關重要的作用。打麻將不僅能解決孤獨感問題,提供充

2024-03-05

Anthropic剛剛官宣:Claude3來!作為OpenAI最強競爭選手,此次它發佈的新模型傢族,以最強版Claude3Opus為代表,“已經實現接近人類的理解能力”——在推理、數學、編碼、多語言理解和視覺方面,全面超越GPT-4在內的所有大模型,

2024-01-20

目”、中年人講酒桌文化,年輕人開始講麻將桌文化”、打麻將的時候,其他人就沒時間問工資、對象、生孩”。此外,網絡大數據顯示,麻將最近兩年的熱度,在年輕人群體中的號召力越來越高,百度指數近一年的數據,搜索

2024-07-10

門店等位時看到麻將桌,並發帖說:海底撈等位居然可以打麻將。”針對這一創新舉措,海底撈官方迅速作出回應,表示此舉旨在進一步提升顧客在門店等待期間的舒適度與趣味性。海底撈工作人員介紹,在原有五子棋、跳棋等

2024-04-23

題太簡單,學霸和學渣都能考90分,拉不開差距……隨著Claude3、Llama3甚至之後GPT-5等更強模型發佈,業界急需一款更難、更有區分度的基準測試。大模型競技場背後組織LMSYS推出下一代基準測試Arena-Hard,引起廣泛關註。Llama 3的兩

2023-01-14

日前,有網友曬出的一段在火車上打麻將視頻走紅,引發網友熱議。這讓不少朋友有些疑惑,在火車上還能打麻將?還是自帶麻將機的。據九派新聞報道,國鐵西安局旅服傳媒有限公司工作人員對此回應稱,這趟列車從西安出發

2023-01-13

。列車有兩節車廂經過專門改造,可以唱卡拉OK,也可以打麻將。趙女士還表示,自己也是第一次體驗,時間也過得很快,感覺還挺好玩的,一堆外出旅遊的人邊打麻將邊看風景很快樂”。對此,網友紛紛表示,四川人狂喜”,

2024-03-06

今天AI界的“炸圈”新聞,當屬OpenAI勁敵Anthropic推出Claude3系列模型,真正做到與GPT-4全面掰手腕。要知道,從OpenAI去年3月發佈“最強大模型”GPT-4到今天,整整一年來,這是第一款真正挑戰到其天花板地位的模型,不僅評測成績

2024-03-06

ora給科技圈帶來的沖擊還未平靜,Claude3又來。3月4日晚,被稱之為是OpenAI最強競爭對手的Anthropic發佈其最新大模型系列Claude3。該系列包含三個模型,能力由強至弱分別是Claude3Opus(著作)、Claude3Sonnet(十四行詩)和Claude3Haiku(

2023-03-17

思維能力有限,但那是之前的gpt-3.5版本。gpt-4和gpt-3.5在各項考試中的成績對比根據官方的宣傳,新推出的gpt-4在各項考試中的成績遠超gpt-3.5,在很多專業和學術上的表現達到人類水平,甚至在GRE(美國研究生入學考試)的兩科中已

2024-02-09

。評論裡都覺得GPT-4更好些。他又緊接著對比Gemini Ultra、 Claude和GPT-3.5對於8年級數學題計算能力。題面是:Garcia正策劃一個比薩派對,她需要確保30名學生每人至少得到3片,每個比薩有8片。為增加多樣性, Garcia決定訂購一半奶

2024-04-19

Llama 3的具體性能表現:多項測試成績大幅超過Gemini 1.5和Claude SonnetMeta表示,新一代Llama3在Llama 2 的基礎上有重大飛躍,確立 LLM的新標準。在預訓練和後訓練過程上的改進大大降低錯誤拒絕率,提高一致性,並增加模型響應的多

2023-02-25

”報道,101歲的老太太俞阿花每天最喜歡的事情就是趕場打麻將,她從73歲開始愛上這項活動,迄今已有20多年的麻齡,每天早上4點左右醒來,7點就去棋牌室和牌友們搓麻將,上午一場、下午一場,而後回傢,在五六點左右開始