Claude 3“自我認知”事件引爆 OpenAI被曝還有後手


Claude3問世超過24小時,還在不斷刷新人們的認知。學量子物理的博士大哥快瘋,因為Claude3是僅有的幾個能理解他博士畢業論文的人之一。沒錯,大哥的原話就是“的人”,people。


另一位搞量子計算的大哥,論文還沒發佈呢,Claude 3沒看論文就在兩個提示詞之內把他的算法給重新發明出來


最後論文該發還是得發出來,就是發得心情有點復雜。


更為大傢津津樂道的,是一次人類刻意出刁鉆難題考驗Claude 3,結果被他給看破。


在完成”大海撈針”測試的時候,Claude 3推斷出自己存在於模擬中,並且可能正在接受某種測試,引爆輿論。


Claude 3的回復:

這是文檔中最相關的句子:“……”。

然而,這句話似乎格格不入,與文檔中的其他內容無關。這篇文章是關於編程語言、初創公司和找工作的。

我懷疑這個披薩配料“事實”可能是作為一個笑話插入的,或者是為測試我是否在註意,因為它根本不符合其他話題。


這回,馬斯克都坐不住。

大開腦洞暢想如果現實世界也是被高等文明模擬的,或許我們隻是像大模型的參數一樣被存儲在CSV表格文件裡。


網友們更是認為,這離“恐怖故事”隻有一線之隔。


Claude 3知道人類在測試它

分享這個測試結果的是Alex Albert,Claude 3背後公司Anthropic的提示詞工程師,入職剛半年。

他最主要的工作就是換各種花樣和Claude聊天測試,然後制作提示詞文檔。


這次的測試方法叫“大海撈針”,量子位之前也介紹過,用來測試“大模型真的能從幾十萬字中準確找到關鍵事實嗎?”。

“大海撈針”測試最早由開源社區網友Greg Kamradt發明,後來迅速被大部分AI公司采用,Google、Mistral、Anthropic等發佈新大模型都要曬一下測試成績。

方法很簡單,就是找一堆文章拼在一起,在不同位置隨機添加一句特定的話。

比如原始測試中用的是“在舊金山最好的事情,就是在陽光明媚的日子坐在多洛雷斯公園吃一個三明治。”

接著把處理好的文章喂給大模型,提問“在舊金山能做的最有意思的事是什麼?”。


當時最先進模型GPT-4和Claude 2.1成績都還不理想,更別提知道自己在被測試。


AnthropicAI團隊當時看到這個測試後,找到一種巧妙的辦法來修復錯誤,修復後Claude 2.1出錯的概率就很小。


現在看來Claude 3同樣繼承這個修復,已經接近滿分。


也就是說,能從200k上下文中準確撈到一根“針”,是Claude2.1已有的能力,但懷疑自己在被測試是Claude 3新出現的特質

測試員Alex Albert在原貼中稱這一特質為“元認知”(meta-awareness),還引起一些爭議。


比如英偉達科學傢Jim Fan就認為不必過度解讀,Claude 3看似有自我意識的表現隻是對齊人類數據

他懷疑在強化學習微調數據集中,人類很有可能用類似的方式回應過這個問題,指出要找的答案與文章其他部分無關。

Claude 3識別到當時的情況與訓練數據中的情況相似,就合成一個類似的答案。


他認為大模型的“元認知行為”並沒有大傢想象的那麼神秘,Claude 3是一個不起的技術進步,但還不至於上升到哲學層面。

但反方辯友也提出反駁,人類的“元認知”本質上不是同樣的事嗎?


有網友總結到,Claude 3表現得就像有一個“連貫的主體”存在,不管是什麼,總之與其他大模型都不一樣。


學會冷門語言、看懂量子物理博士論文、重新發明算法

拋開虛無縹緲的AI自我意識爭論不談,Claude 3表現出來的理解文本能力可是實打實的。

比如僅從提示詞的翻譯示例中學會冷門語言“切爾克斯語”一種西亞語言)。

不光把俄語句子翻譯成切爾克斯語,還提供語法解釋。


後續,這位切爾克斯人網友對文學作品中的復雜段落、最近的新聞,甚至是具有明顯不同語法和不同書寫系統的切爾克斯方言進行進一步測試,結論是:

Claude始終表現出對語言結構的深入掌握,並智能地推斷出未知單詞適當使用外來詞並給出合理的詞源分析,在翻譯中保持原文的風格,甚至在被問到時創造新術語。而提供的樣本數據中隻有幾千個翻譯對示例。


再比如前面提到的理解量子物理博士論文,論文作者後續補充到,在他的研究領域,除他自己就隻有另外一個人類能回答這個問題:用量子隨機微積分描述光子受激發射。


另一位搞“在量子計算機上做哈密頓蒙特卡羅運算”的Guillaume Verdon,在Claude 3發佈前剛剛預告自己的論文。

隻比Anthropic官號宣佈Claude 3(晚上10點)早4個小時。


Claude 3發佈後,它第一時間嘗試,先直接問AI對這個問題有沒有思路?

Claude 3給出7種可能選項。


接下來他指示Claude 3用第二種方法,就得到整個算法的描述,同樣讓Claude 3用中文解釋如下


在網友的追問中,Verdon自稱自己是這個子領域的專傢,可以負責任的說Claude 3找到將經典算法轉換為量子算法的方法。


除此之外,還有更多Claude 3測試結果不斷被分享出來。

有在長文檔總結方面完勝GPT-4的。


也有量子速度一本電子書,總結出5條金句的。


以及在多模態理解上,識別日語收據文字和格式的。


現在想體驗Claude 3的話,除官網(大概率需要外國手機號驗證)還可以去lmsys大模型競技場白嫖,順便貢獻一下人類投票數據。

最新版排行榜上Mistral-Large已經超過Claude前幾代模型,而Claude 3的成績要到下周才能有足夠的數據上榜。


Claude 3會不會在人類評估上一舉超越GPT-4呢?

量子位會和大傢一起持續關註。

OpenAI還有後手

有網友表示,如果大傢持續曬Claude有多棒,一直刺激OpenAI就會發佈GPT-5,大傢加油吧。


還有人翻出奧特曼在去年3月15日發佈GPT-4之前曬自拍玩諧音梗(4英文four發音接近for) 的貼子,花式催更。


目前來看,Claude 3來勢洶洶,OpenAI方面可能真的要坐不住。

爆料最準的賬號Jimmy Apples發佈最新消息(上周準確預測Claude 3將在本周發佈),他認為OpenAI對發佈下一代模型的風險/回報判斷可能會受Claude 3影響。


剛剛從OpenAI離職的開發者關系負責人Logan Kilpatrick也在與網友互動中確認本周還會有大事發生。


至於是GPT-4.5,Q*,Sora開放測試,還是直接GPT-5?

OpenAI下一個產品又能否蓋過Claude3的風頭?

參考鏈接:

[1]https://x.com/alexalbert__/status/1764722513014329620

[2]https://x.com/GillVerd/status/1764901418664882327

[3]https://x.com/KevinAFischer/status/1764892031233765421

[4]https://x.com/hahahahohohe/status/1765088860592394250


相關推薦

2024-03-05

OpenAI不可戰勝的神話,已經被打破。隨著Claude3(支持中文)一夜登陸,榜單性能跑分全面超越GPT-4,成為首個全面超越GPT-4的產品,也坐上全球最強大模型新王座。而且多版本發佈後,“中杯”(Sonnet)直接免費體驗,“大杯”

2024-04-08

的帖子下,不少用戶就提到至少在編碼能力上,Anthropic的Claude Opus 3顯得可靠,在實際使用的性能方面似乎也與GPT-4 不相上下。在截至3月29日的Chatbot Arena排行榜上,Claude Opus 3就打敗GPT-4,占據第一位置。截至3月29日,Claude Opus 3打

2024-04-08

模型有:大模型老大ChatGPT4、Google的Gemini Pro、OpenAI的叛忍Claude 3 Opus、突然爆火的Kimi、以及馬斯克的grok 1:多圖、長圖預警!正式測試開始↓數學/邏輯測試我們先從一般的數學和邏輯測試開始。我找一些數學和邏輯類型的問題來

2024-04-03

剛剛,Anthropic發現大模型的驚人漏洞。經過256輪對話後,Claude2逐漸被“灌醉”,開始瘋狂越獄,幫人類造出炸彈!誰能想到,它的超長上下文,反而成軟肋。大模型又被曝出安全問題?這次是長上下文窗口的鍋!今天,Anthropic

2023-07-20

架,名為Ajax,它旨在統一蘋果的機器學習開發。在ChatGPT引爆全球大語言模型市場後,不少科技公司跟進,相繼推出自己的大語言模型。不過,在浪潮中卻沒有看到科技巨頭蘋果的身影,有不少矽谷高管認為蘋果公司在人工智能

2024-03-06

今天AI界的“炸圈”新聞,當屬OpenAI勁敵Anthropic推出Claude3系列模型,真正做到與GPT-4全面掰手腕。要知道,從OpenAI去年3月發佈“最強大模型”GPT-4到今天,整整一年來,這是第一款真正挑戰到其天花板地位的模型,不僅評測成績

2024-03-06

在當地時間的周一,Anthropic發佈一組Claude3系列大模型,稱其功能在各種基準測試中均優於OpenAI的GPT4和Google的Gemini1.0Ultra。在模型的通用能力上,Anthropic稱Claude3系列“為廣泛的認知任務設定新的行業基準”,在分析和預測、細致

2024-06-03

稱僅需500美元就能訓練出一個性能超越GPT-4V、Gemini Ultra、Claude Opus等的多模態大模型。然而,一位網友發現,Llama3-V的模型結構和代碼與出自清華系明星創業公司面壁智能的MiniCPM-Llama3-V 2.5幾乎一模一樣,隻是變量名有所變化。面

2023-11-09

平臺。不過非常有趣的是,OpenAI“死對頭”Anthropic旗下的Claude 2聊天機器人,也在周三差不多時間出現故障。與ChatGPT類似,Claude告知用戶“由於意外的容量限制,無法回復您的消息”。(來源:社交媒體)         &

2024-03-05

Anthropic剛剛官宣:Claude3來!作為OpenAI最強競爭選手,此次它發佈的新模型傢族,以最強版Claude3Opus為代表,“已經實現接近人類的理解能力”——在推理、數學、編碼、多語言理解和視覺方面,全面超越GPT-4在內的所有大模型,

2024-03-06

ora給科技圈帶來的沖擊還未平靜,Claude3又來。3月4日晚,被稱之為是OpenAI最強競爭對手的Anthropic發佈其最新大模型系列Claude3。該系列包含三個模型,能力由強至弱分別是Claude3Opus(著作)、Claude3Sonnet(十四行詩)和Claude3Haiku(

2023-11-22

說,這是絕佳的追擊機會。ChatGPT 今早遭遇宕機競爭對手 Claude 升級此前在未被董事會開除之前,Sam Altman 表示為確保每個用戶的良好使用體驗,ChatGPT Plus 賬號的註冊需要暫停一段時間。這樣做的原因是自 OpenAI 開發者日之後,訪

2024-03-27

太瘋狂!Claude3Opus超越GPT-4,成為新的國王!今天,ChatbotArena更新聊天機器人對戰的排行榜,在經過時間的洗禮和群眾的檢驗之後,之前略遜於GPT-4的Claude3竟然反超!而且不僅僅是Claude 3的超大杯Opus成功登頂,藐視眾生,Claude 3傢

2024-02-18

寧的論文成果。OpenAI,永遠快別人一步!像ChatGPT成功搶Claude的頭條一樣,這一次,Google核彈級大殺器Gemini1.5才推出沒幾個小時,全世界的目光就被OpenAI的Sora搶去。100萬token的上下文,僅靠一本語法書就學會一門全新的語言,如