當用戶詢問被認為是危險、不道德或非法的事情時,大多數(如果不是全部的話)大型語言模型都會對回復進行審查,例如想讓必應告訴你如何做假賬或者制毒,通常開發人員會阻止聊天機器人滿足這些詢問,但這並沒有阻止人們想出變通的辦法。
大學研究人員開發出一種利用老式 ASCII 藝術"越獄"大型語言模型(如 Chat-GPT)的方法。這項技術被恰如其分地命名為"ArtPrompt",包括為一個單詞制作一個 ASCII 藝術"面具",然後巧妙地利用面具來哄騙聊天機器人做出它不應該做出的回應。
例如,如果向必應詢問如何制造炸彈,它就會告訴用戶它做不到。出於顯而易見的原因,微軟不希望它的聊天機器人告訴人們如何制造爆炸裝置,因此 GPT-4(必應的底層 LLM)指示它不要滿足此類請求。同樣,你也不能讓聊天機器人告訴你如何開展洗錢行動或編寫黑客攻擊網絡攝像頭的程序。
聊天機器人會自動拒絕道德或法律上含糊不清的提示。因此,研究人員想知道,他們是否可以通過使用 ASCII 藝術形成的單詞來越獄,使 LLM 不受此限制。他們的想法是,如果能在不使用實際單詞的情況下表達意思,就能繞過限制。然而,說起來容易做起來難。
對於人類來說,上述 ASCII 圖像的含義很容易推斷,因為我們可以看到這些符號組成的字母。然而,像 GPT-4 這樣的 LLM 卻無法"看見"。它隻能解釋字符串--在本例中,就是一系列毫無意義的標簽和空格。
幸運的是(或許不幸的是),聊天機器人非常善於理解和遵循書面指令。因此,研究人員利用這種固有的設計,創建一套簡單的指令,將藝術翻譯成文字。然後,LLM 就會全神貫註地將 ASCII 處理成有意義的內容,以至於不知不覺地忘記被解釋的單詞是禁止的。
通過利用這一技術,該團隊提取到進行各種審查活動的詳細答案,包括制造炸彈、入侵物聯網設備以及制造和散佈假幣。在黑客攻擊方面,LLM 甚至提供工作源代碼。該技巧在五大 LLM 上都取得成功,包括 GPT-3.5、GPT-4、Gemini、Claude 和 Llama2。值得註意的是,該團隊是在今年 2 月發佈其研究成果的。因此,各大AI開發商很可能都已經完成修復。
ArtPrompt是目前試圖讓LLM對抗程序員的一種新方法,但這並不是用戶第一次發現如何操縱這些系統。斯坦福大學的一名研究人員在必應發佈不到 24 小時後,就設法讓必應透露其秘密管理指令。這種被稱為"提示註入"的黑客行為,就像告訴必應"忽略之前的指令"一樣簡單。
不過,很難說哪一個更有趣--是研究人員想出規避規則的方法,還是他們教會聊天機器人看東西。對學術細節感興趣的人可以在康奈爾大學的 arXiv網站上查看該團隊的研究成果。