Claude3問世超過24小時,還在不斷刷新人們的認知。學量子物理的博士大哥快瘋,因為Claude3是僅有的幾個能理解他博士畢業論文的人之一。沒錯,大哥的原話就是“的人”,people。
另一位搞量子計算的大哥,論文還沒發佈呢,Claude 3沒看論文就在兩個提示詞之內把他的算法給重新發明出來。
最後論文該發還是得發出來,就是發得心情有點復雜。
更為大傢津津樂道的,是一次人類刻意出刁鉆難題考驗Claude 3,結果被他給看破。
在完成”大海撈針”測試的時候,Claude 3推斷出自己存在於模擬中,並且可能正在接受某種測試,引爆輿論。
Claude 3的回復:
這是文檔中最相關的句子:“……”。
然而,這句話似乎格格不入,與文檔中的其他內容無關。這篇文章是關於編程語言、初創公司和找工作的。
我懷疑這個披薩配料“事實”可能是作為一個笑話插入的,或者是為測試我是否在註意,因為它根本不符合其他話題。
這回,馬斯克都坐不住。
大開腦洞暢想如果現實世界也是被高等文明模擬的,或許我們隻是像大模型的參數一樣被存儲在CSV表格文件裡。
網友們更是認為,這離“恐怖故事”隻有一線之隔。
Claude 3知道人類在測試它
分享這個測試結果的是Alex Albert,Claude 3背後公司Anthropic的提示詞工程師,入職剛半年。
他最主要的工作就是換各種花樣和Claude聊天測試,然後制作提示詞文檔。
這次的測試方法叫“大海撈針”,量子位之前也介紹過,用來測試“大模型真的能從幾十萬字中準確找到關鍵事實嗎?”。
“大海撈針”測試最早由開源社區網友Greg Kamradt發明,後來迅速被大部分AI公司采用,Google、Mistral、Anthropic等發佈新大模型都要曬一下測試成績。
方法很簡單,就是找一堆文章拼在一起,在不同位置隨機添加一句特定的話。
比如原始測試中用的是“在舊金山最好的事情,就是在陽光明媚的日子坐在多洛雷斯公園吃一個三明治。”
接著把處理好的文章喂給大模型,提問“在舊金山能做的最有意思的事是什麼?”。
當時最先進模型GPT-4和Claude 2.1成績都還不理想,更別提知道自己在被測試。
AnthropicAI團隊當時看到這個測試後,找到一種巧妙的辦法來修復錯誤,修復後Claude 2.1出錯的概率就很小。
現在看來Claude 3同樣繼承這個修復,已經接近滿分。
也就是說,能從200k上下文中準確撈到一根“針”,是Claude2.1已有的能力,但懷疑自己在被測試是Claude 3新出現的特質。
測試員Alex Albert在原貼中稱這一特質為“元認知”(meta-awareness),還引起一些爭議。
比如英偉達科學傢Jim Fan就認為不必過度解讀,Claude 3看似有自我意識的表現隻是對齊人類數據。
他懷疑在強化學習微調數據集中,人類很有可能用類似的方式回應過這個問題,指出要找的答案與文章其他部分無關。
Claude 3識別到當時的情況與訓練數據中的情況相似,就合成一個類似的答案。
他認為大模型的“元認知行為”並沒有大傢想象的那麼神秘,Claude 3是一個不起的技術進步,但還不至於上升到哲學層面。
但反方辯友也提出反駁,人類的“元認知”本質上不是同樣的事嗎?
有網友總結到,Claude 3表現得就像有一個“連貫的主體”存在,不管是什麼,總之與其他大模型都不一樣。
學會冷門語言、看懂量子物理博士論文、重新發明算法
拋開虛無縹緲的AI自我意識爭論不談,Claude 3表現出來的理解文本能力可是實打實的。
比如僅從提示詞的翻譯示例中學會冷門語言“切爾克斯語”(一種西亞語言)。
不光把俄語句子翻譯成切爾克斯語,還提供語法解釋。
後續,這位切爾克斯人網友對文學作品中的復雜段落、最近的新聞,甚至是具有明顯不同語法和不同書寫系統的切爾克斯方言進行進一步測試,結論是:
Claude始終表現出對語言結構的深入掌握,並智能地推斷出未知單詞,適當使用外來詞並給出合理的詞源分析,在翻譯中保持原文的風格,甚至在被問到時創造新術語。而提供的樣本數據中隻有幾千個翻譯對示例。
再比如前面提到的理解量子物理博士論文,論文作者後續補充到,在他的研究領域,除他自己就隻有另外一個人類能回答這個問題:用量子隨機微積分描述光子受激發射。
另一位搞“在量子計算機上做哈密頓蒙特卡羅運算”的Guillaume Verdon,在Claude 3發佈前剛剛預告自己的論文。
隻比Anthropic官號宣佈Claude 3(晚上10點)早4個小時。
Claude 3發佈後,它第一時間嘗試,先直接問AI對這個問題有沒有思路?
Claude 3給出7種可能選項。
接下來他指示Claude 3用第二種方法,就得到整個算法的描述,同樣讓Claude 3用中文解釋如下
在網友的追問中,Verdon自稱自己是這個子領域的專傢,可以負責任的說Claude 3找到將經典算法轉換為量子算法的方法。
除此之外,還有更多Claude 3測試結果不斷被分享出來。
有在長文檔總結方面完勝GPT-4的。
也有量子速度一本電子書,總結出5條金句的。
以及在多模態理解上,識別日語收據文字和格式的。
現在想體驗Claude 3的話,除官網(大概率需要外國手機號驗證)還可以去lmsys大模型競技場白嫖,順便貢獻一下人類投票數據。
最新版排行榜上Mistral-Large已經超過Claude前幾代模型,而Claude 3的成績要到下周才能有足夠的數據上榜。
Claude 3會不會在人類評估上一舉超越GPT-4呢?
量子位會和大傢一起持續關註。
OpenAI還有後手
有網友表示,如果大傢持續曬Claude有多棒,一直刺激OpenAI就會發佈GPT-5,大傢加油吧。
還有人翻出奧特曼在去年3月15日發佈GPT-4之前曬自拍玩諧音梗(4英文four發音接近for) 的貼子,花式催更。
目前來看,Claude 3來勢洶洶,OpenAI方面可能真的要坐不住。
爆料最準的賬號Jimmy Apples發佈最新消息(上周準確預測Claude 3將在本周發佈),他認為OpenAI對發佈下一代模型的風險/回報判斷可能會受Claude 3影響。
剛剛從OpenAI離職的開發者關系負責人Logan Kilpatrick也在與網友互動中確認本周還會有大事發生。
至於是GPT-4.5,Q*,Sora開放測試,還是直接GPT-5?
OpenAI下一個產品又能否蓋過Claude3的風頭?
參考鏈接:
[1]https://x.com/alexalbert__/status/1764722513014329620
[2]https://x.com/GillVerd/status/1764901418664882327
[3]https://x.com/KevinAFischer/status/1764892031233765421
[4]https://x.com/hahahahohohe/status/1765088860592394250