新的由ChatGPT驅動的Bing在經歷一次提示性的註入攻擊後透露它的秘密。除透露其開罰代號為"Sydney"外,它還分享其原始指令,指導它在與用戶互動時如何表現。
提示性註入攻擊仍然是人工智能的弱點之一。它可以通過用惡意和敵對的用戶輸入來欺騙人工智能,使其執行不屬於其原始目標的任務,或做它不應該做的事情。正如斯坦福大學學生凱文-劉所揭示的那樣,ChatGPT也不例外。
在Liu分享的一系列截圖中,新上線的基於ChatGPT的Bing搜索引擎分享有關於它自己的機密信息,這些信息是其原始指令的一部分,而這些指令原本,並且應該是向用戶隱藏的。Liu在使用騙過人工智能的提示性註入攻擊後,成功獲得這些信息。
泄漏的信息中包括其引入的指令、內部別名"Sydney"以及其支持的語言和行為指令。另一位名叫馬文-馮-哈根的學生在假裝成OpenAI的開發者後證實Liu的發現。
一天後,這些信息被披露,Liu說他已經無法使用他用來欺騙ChatGPT的相同提示來查看信息,然而,這位學生在使用不同的提示註入攻擊方法後,又成功地騙過人工智能。
微軟最近正式公佈支持ChatGPT的新必應,同時還公佈帶有新的人工智能驅動的側邊欄的Edge瀏覽器的改版。盡管它似乎取得巨大的成功,但改進後的搜索引擎在提示註入攻擊方面仍有其致命的弱點,這可能會導致共享其機密指令之外的進一步影響。
在人工智能中,ChatGPT並不是唯一存在這個已知問題的。這也可能延伸到其他方面,包括Google Bard,它最近在一個演示中犯的一個錯誤直接導致公司股價下跌超過一成。盡管如此,隨著整個科技行業對人工智能創作的投資增加,人們隻能希望這個問題在未來對人工智能的威脅可能會減少。