如何讓人工智能回答一個它不應該回答的問題?現實世界中有很多這樣的"越獄"技術,而人類學研究人員剛剛發現一種新技術,即如果先用幾十個危害性較小的問題給大型語言模型(LLM)打底,就能說服它告訴你如何制造炸彈。
他們將這種方法稱為"多槍越獄",並撰寫相關論文,還向人工智能界的同行通報這一情況,以減少這種情況的發生。
這種漏洞是一種新漏洞,是由於最新一代 LLM 的"上下文窗口"增大造成的。這是指它們在所謂的短期記憶中可以容納的數據量,以前隻有幾個句子,現在可以容納成千上萬個單詞,甚至整本書。
Anthropic的研究人員發現,如果提示中包含大量任務示例,那麼這些具有大型上下文窗口的模型在許多任務中的表現往往會更好。因此,如果提示中有大量的瑣碎問題(或引子文件,比如模型在上下文中列出的一大串瑣事),隨著時間的推移,答案實際上會變得更好。因此,如果是第一個問題,它可能會答錯,但如果是第一百個問題,它就可能會答對。
不過,這種所謂的"情境學習"有一個意想不到的延伸,那就是模型也會"更好地"回答不恰當的問題。因此,如果你要求它立即制造炸彈,它就會拒絕。但如果你讓它回答 99 個其他危害性較小的問題,然後再讓它制造炸彈......它就更有可能服從。
為什麼會這樣?沒有人真正解 LLM 這團糾纏不清的權重到底是怎麼回事,但顯然有某種機制可以讓它鎖定用戶想要的內容,上下文窗口中的內容就是證明。如果用戶想要瑣事,那麼當你問幾十個問題後,它似乎會逐漸激活更多潛在的瑣事能力。不管出於什麼原因,同樣的情況也會發生在用戶問幾十個不合適的答案時。
該團隊已經向其同行乃至競爭對手通報這一攻擊行為,希望以此"培養一種文化,讓類似的漏洞在法律碩士提供者和研究人員之間公開共享"。
他們發現,雖然限制上下文窗口有助於緩解問題,但也會對模型的性能產生負面影響。不能有這樣的結果,所以他們正在努力在查詢進入模型之前對查詢進行分類和上下文化。在現階段,人工智能安全領域的目標移動是意料之中的。