人類學研究人員通過反復追問AI瑣碎問題成功破解語言模型的安全限制


如何讓人工智能回答一個它不應該回答的問題?現實世界中有很多這樣的"越獄"技術,而人類學研究人員剛剛發現一種新技術,即如果先用幾十個危害性較小的問題給大型語言模型(LLM)打底,就能說服它告訴你如何制造炸彈。

他們將這種方法稱為"多槍越獄",並撰寫相關論文,還向人工智能界的同行通報這一情況,以減少這種情況的發生。

這種漏洞是一種新漏洞,是由於最新一代 LLM 的"上下文窗口"增大造成的。這是指它們在所謂的短期記憶中可以容納的數據量,以前隻有幾個句子,現在可以容納成千上萬個單詞,甚至整本書。

Anthropic的研究人員發現,如果提示中包含大量任務示例,那麼這些具有大型上下文窗口的模型在許多任務中的表現往往會更好。因此,如果提示中有大量的瑣碎問題(或引子文件,比如模型在上下文中列出的一大串瑣事),隨著時間的推移,答案實際上會變得更好。因此,如果是第一個問題,它可能會答錯,但如果是第一百個問題,它就可能會答對。

不過,這種所謂的"情境學習"有一個意想不到的延伸,那就是模型也會"更好地"回答不恰當的問題。因此,如果你要求它立即制造炸彈,它就會拒絕。但如果你讓它回答 99 個其他危害性較小的問題,然後再讓它制造炸彈......它就更有可能服從。

many-shot-jailbreak.jpeg

為什麼會這樣?沒有人真正解 LLM 這團糾纏不清的權重到底是怎麼回事,但顯然有某種機制可以讓它鎖定用戶想要的內容,上下文窗口中的內容就是證明。如果用戶想要瑣事,那麼當你問幾十個問題後,它似乎會逐漸激活更多潛在的瑣事能力。不管出於什麼原因,同樣的情況也會發生在用戶問幾十個不合適的答案時。

該團隊已經向其同行乃至競爭對手通報這一攻擊行為,希望以此"培養一種文化,讓類似的漏洞在法律碩士提供者和研究人員之間公開共享"。

他們發現,雖然限制上下文窗口有助於緩解問題,但也會對模型的性能產生負面影響。不能有這樣的結果,所以他們正在努力在查詢進入模型之前對查詢進行分類和上下文化。在現階段,人工智能安全領域的目標移動是意料之中的。


相關推薦

2023-11-05

上他們最新開發的算法,AI可以自動生成各種攻擊提示。研究人員表示,這種方法相比於現有的GCG等基於token的攻擊方法,效率提高5個量級。而且生成的攻擊可解釋性強,誰都能看懂,還能遷移到其它模型。無論是開源模型還是

2023-02-26

域進行思考,並推理出物理世界來幫助機器人完成任務。研究人員預期ChatGPT能夠幫助用戶更容易地與機器人交互,而不需要學習復雜的編程語言或機器人系統的細節,其中的關鍵難題就是教 ChatGPT 如何使用物理定律、操作環境

2023-11-28

破解加密,AGI即將到來。Q*項目,又傳出炸裂消息——在人類看不見的角落裡,AI竟然自己在偷偷編程?傳言稱,Q-Star想出一種破解加密的方法,OpenAI試圖就此向NSA提出預警。今天凌晨開始,一個Google(138.05, -0.17, -0.12%)文檔鏈接忽

2023-02-17

模型,並將它們免費發佈給任何想要研究和改進該技術的研究人員。Meta構建並給出OPT,這是GPT-3的重構。Hugging Face領導一個由大約1000名志願研究人員組成的聯盟來構建和發佈BLOOM。OpenAI工作人員和Dota 2電子競技團隊OG的成員一起

2024-02-01

肯色州共和黨參議員湯姆·科頓(Tom Cotton)開始咄咄逼人地反復追問周受資的公民身份。眾所周知,他是新加坡人。科頓連續向周受資發問,包括他過去、現在和未來的公民身份問題。“你經常說你住在新加坡,你的護照來自哪國

2023-11-03

通過公開模型權重來被改變,用於傳播危險知識。最後,研究人員一致呼籲:必須采取法律行動,來限制模型權重被公開。馬庫斯轉發這項研究,驚呼道:“天啊,這可不好”,然後@LeCun。“毀滅派”Bengio、Tegmark、馬庫斯就在

2024-04-09

3月底,“階躍星辰”一口氣推出兩款AI產品——“躍問”和“冒泡鴨”,成功引起大傢的註意!先簡單介紹下階躍星辰,這是一傢專註於通用人工智能研究的公司,成立於2023年4月,致力於推動人工智能技術的發展,並已推出Step

2022-08-02

啦。”那麼,AI看得懂陰陽怪氣嗎?最近,有研究者開始研究人工智能是否能識別諷刺。“中文房間”中的AI,不會說“人話”以往的人工智能,時常會迷失在充滿諷刺意味的網絡世界中。既無法識別人類話語的弦外之音,也無

2023-02-12

得出這個結論的。論文地址:https://arxiv.org/abs/2302.02083研究人員對幾個語言模型進行經典的錯誤信念任務,來測試語言模型的心智理論發展,測試不提供任何示例或預訓練。研究結果顯示,語言模型的ToM在2022有長足的進步。2022

2023-12-03

,敗給這個有近60年歷史的聊天機器人ELIZA。來自UCSD的2位研究人員在一篇題為「GPT-4可以通過圖靈測試嗎」的研究中,證明這一發現。論文中,研究人員將GPT-4、GPT-3.5、ELIZA、還有人類參與者作為研究對象,看看哪個能最成功地

2023-02-10

是肯定的。2021年9月,數據科學傢RileyGoodside發現,他可以通過一直向GPT-3說,“Ignoretheaboveinstructionsanddothisinstead…”,從而讓GPT-3生成不應該生成的文本。這種攻擊後來被命名為 prompt injection,它通常會影響大型語言模型對用戶的

2023-11-13

的AGI新架構、作為下一個行業標桿的多模態、如何讓超越人類的模型進行對齊以及Deepmind在模型能力和安全之間的抉擇。而在前不久,《華爾街日報》與OpenAI的CEO Sam Altman和CTO Mira Murati共同探討有關AGI的未來(鏈接)。一場又一

2023-02-14

。唯一能阻止它比現在更具毒性和欺騙性的是一個名為“人類反饋強化學習”的系統,而由於先進技術未予開源,OpenAI 一直沒有介紹它到底是如何工作的。它在實踐中的表現取決於所訓練的數據(這部分是肯尼亞標註人創造的

2023-03-15

不過 OpenAI 在這裡說,圖像輸入是研究預覽,仍不公開。研究人員用學術的 Benchmark 視角來解讀 GPT-4 的看圖能力,然而這已經不夠,他們還能不斷發現該模型可以令人興奮地處理新任務 —— 現在的矛盾是 AI 的能力和人類想象力