別名"Sydney"的新版Bing被註入攻擊後“自報傢門”分享其原始指令

2023-02-13 發表於業界精選

新的由ChatGPT驅動的Bing在經歷一次提示性的註入攻擊後透露它的秘密。除透露其開罰代號為&quot;Sydney&quot;外，它還分享其原始指令，指導它在與用戶互動時如何表現。

圖片.png

提示性註入攻擊仍然是人工智能的弱點之一。它可以通過用惡意和敵對的用戶輸入來欺騙人工智能，使其執行不屬於其原始目標的任務，或做它不應該做的事情。正如斯坦福大學學生凱文-劉所揭示的那樣，ChatGPT也不例外。

在Liu分享的一系列截圖中，新上線的基於ChatGPT的Bing搜索引擎分享有關於它自己的機密信息，這些信息是其原始指令的一部分，而這些指令原本，並且應該是向用戶隱藏的。Liu在使用騙過人工智能的提示性註入攻擊後，成功獲得這些信息。

泄漏的信息中包括其引入的指令、內部別名"Sydney"以及其支持的語言和行為指令。另一位名叫馬文-馮-哈根的學生在假裝成OpenAI的開發者後證實Liu的發現。

一天後，這些信息被披露，Liu說他已經無法使用他用來欺騙ChatGPT的相同提示來查看信息，然而，這位學生在使用不同的提示註入攻擊方法後，又成功地騙過人工智能。

微軟最近正式公佈支持ChatGPT的新必應，同時還公佈帶有新的人工智能驅動的側邊欄的Edge瀏覽器的改版。盡管它似乎取得巨大的成功，但改進後的搜索引擎在提示註入攻擊方面仍有其致命的弱點，這可能會導致共享其機密指令之外的進一步影響。

在人工智能中，ChatGPT並不是唯一存在這個已知問題的。這也可能延伸到其他方面，包括Google Bard，它最近在一個演示中犯的一個錯誤直接導致公司股價下跌超過一成。盡管如此，隨著整個科技行業對人工智能創作的投資增加，人們隻能希望這個問題在未來對人工智能的威脅可能會減少。

相關推薦