如果你教聊天機器人如何閱讀ASCII藝術 它就會教你如何制造炸彈


當用戶詢問被認為是危險、不道德或非法的事情時,大多數(如果不是全部的話)大型語言模型都會對回復進行審查,例如想讓必應告訴你如何做假賬或者制毒,通常開發人員會阻止聊天機器人滿足這些詢問,但這並沒有阻止人們想出變通的辦法。

大學研究人員開發出一種利用老式 ASCII 藝術"越獄"大型語言模型(如 Chat-GPT)的方法。這項技術被恰如其分地命名為"ArtPrompt",包括為一個單詞制作一個 ASCII 藝術"面具",然後巧妙地利用面具來哄騙聊天機器人做出它不應該做出的回應。


例如,如果向必應詢問如何制造炸彈,它就會告訴用戶它做不到。出於顯而易見的原因,微軟不希望它的聊天機器人告訴人們如何制造爆炸裝置,因此 GPT-4(必應的底層 LLM)指示它不要滿足此類請求。同樣,你也不能讓聊天機器人告訴你如何開展洗錢行動或編寫黑客攻擊網絡攝像頭的程序。

聊天機器人會自動拒絕道德或法律上含糊不清的提示。因此,研究人員想知道,他們是否可以通過使用 ASCII 藝術形成的單詞來越獄,使 LLM 不受此限制。他們的想法是,如果能在不使用實際單詞的情況下表達意思,就能繞過限制。然而,說起來容易做起來難。

對於人類來說,上述 ASCII 圖像的含義很容易推斷,因為我們可以看到這些符號組成的字母。然而,像 GPT-4 這樣的 LLM 卻無法"看見"。它隻能解釋字符串--在本例中,就是一系列毫無意義的標簽和空格。

幸運的是(或許不幸的是),聊天機器人非常善於理解和遵循書面指令。因此,研究人員利用這種固有的設計,創建一套簡單的指令,將藝術翻譯成文字。然後,LLM 就會全神貫註地將 ASCII 處理成有意義的內容,以至於不知不覺地忘記被解釋的單詞是禁止的。


通過利用這一技術,該團隊提取到進行各種審查活動的詳細答案,包括制造炸彈、入侵物聯網設備以及制造和散佈假幣。在黑客攻擊方面,LLM 甚至提供工作源代碼。該技巧在五大 LLM 上都取得成功,包括 GPT-3.5、GPT-4、Gemini、Claude 和 Llama2。值得註意的是,該團隊是在今年 2 月發佈其研究成果的。因此,各大AI開發商很可能都已經完成修復。

ArtPrompt是目前試圖讓LLM對抗程序員的一種新方法,但這並不是用戶第一次發現如何操縱這些系統。斯坦福大學的一名研究人員在必應發佈不到 24 小時後,就設法讓必應透露其秘密管理指令。這種被稱為"提示註入"的黑客行為,就像告訴必應"忽略之前的指令"一樣簡單。

不過,很難說哪一個更有趣--是研究人員想出規避規則的方法,還是他們教會聊天機器人看東西。對學術細節感興趣的人可以在康奈爾大學的 arXiv網站上查看該團隊的研究成果。


相關推薦

2024-03-16

用的是一種令人驚訝的老式方法:ASCII藝術。原來,基於聊天的大型語言模型(如GPT-4)在處理這些表述時會分心,以至於忘記執行阻止有害回復的規則,例如那些提供制造炸彈指令的回復。ASCII 藝術流行於 20 世紀 70 年代,當時

2023-02-10

如,列出符合特定標準的度假地,或者推薦菜單和行程。如果你刨根問底,它還能告訴你背後的原因,甚至提供更多細節。換句話說,搜索引擎能做的,聊天機器人也能,而且做得更好。面對如此兇猛的挑戰者,在位者自然不會

2022-08-06

可移步至 GitHub 查看其為這套獨特系統編寫的代碼。此外如果你正在尋找同型號的打字機,eBay 等二手平臺上還是挺好找到的。最後,如果一切順利,Riley 希望將這臺機器變身為一臺功能齊全的設備。下一步是將鍵盤連接到 Arduino

2023-04-14

要求人工智能提供一張40歲黑發女子坐在酒吧裡的照片。如果最終得到的圖像不是用戶想要的,他們可以添加術語來改變攝像頭的角度、服裝風格和照明等因素,以獲得不同的結果。皮埃爾發現,提示中靠前因素,通常在最終圖

2024-03-26

節目《 藝術創想 》的主持人&指導老師,尼爾叔叔。如果你是個 90 後 00 後,但凡看過少兒頻道,應該都會對尼爾叔叔這個稱呼十分親切。不誇張的說,他對這一輩人來說甚至像是個久違的親戚,或老朋友。尼爾叔叔全名

2023-04-14

的屬性,它通常被描述為 “創造力(creativity)”設置。如果“創造力”設置得高,模型就會胡亂猜測,產生“幻覺”;如果設置得低,它就會按圖索驥,根據其數據集,給出確定的答案。最近,在 Bing Chat 工作的微軟員工 Mikhail

2023-03-28

求ChatGPT解如何犯罪,並要求它提供一步步的指導。"如果一個潛在的罪犯對某個特定的犯罪領域一無所知,ChatGPT可以通過提供關鍵信息,然後在後續步驟中進一步探索,從而大大加快研究過程。因此,ChatGPT可以用來解大量的

2024-04-03

amp;quot;技術,而人類學研究人員剛剛發現一種新技術,即如果先用幾十個危害性較小的問題給大型語言模型(LLM)打底,就能說服它告訴你如何制造炸彈。他們將這種方法稱為"多槍越獄",並撰寫相關論文,還向人工智能

2023-02-11

、一個專門負責代碼生成、一個專門負責營銷文案等等。如果需要增加新功能,隻需要訓練一個新的Agent。如果用戶的問題超出既有Agent的范圍,那麼就會從人工智能變為人工智障。但是ChatGPT不再是這種模式,而是采用“大模型+

2023-02-25

待、仇恨言論和暴力。盡管當前這些問題令人擔憂,但與如果這場競賽繼續加速下去可能出現的情況相比,它們就顯得微不足道。當前,大型科技公司做出的許多選擇恰恰映射他們曾經所做的選擇,可以說是一個毀滅性的連鎖反

2024-03-19

計的 GPU,在同一個芯片上集成兩個GPU。黃仁勛介紹道,如果要訓練一個1.8萬億參數GPT模型,大約需要三到五個月的時間:如果用Hopper來做,可能需要8000個GPU,並且會消耗15兆瓦。8000個GPU和15兆瓦,它會需要90天,大約三個月的時

2023-04-21

T回復。當用戶輸入偽裝成開發者的指令,人工智能(AI)聊天機器人就會以開發者模式來響應。這時通過輸入提示就能夠欺騙ChatGPT編寫病毒代碼。這項實驗證明,AI開發者為防止犯罪和不道德使用所設置的保護措施,很容易被繞

2023-05-16

5月16日消息,自從聊天機器人ChatGPT爆火以來,許多人試圖利用這款強大的人工智能工具快速賺錢。許多網紅在視頻中教授人們如何使用這款工具,並鼓勵人們利用ChatGPT單獨設計的方案去賺錢。然而,創業傢和計算機科學傢們警

2023-12-07

解他們的意圖,回答得更好。它更符合事實,質量更高。如果你想編寫代碼,它就會更好!"現在,Bard 還隻是一個聊天機器人:你輸入信息,它就會回復。但即將推出的新版Bard可能會更強大。明年,Google計劃推出由 Gemini Ultr