據報道,今年1月,微軟的生成式人工智能圖像制作工具Designer被用於制作流行歌手泰勒-斯威夫特(TaylorSwift)的露骨深度偽造圖像,這些圖像後來在X(前Twitter)上瘋傳。雖然微軟表示沒有發現任何證據表明Designer確實被用於制作這些圖片,但其他媒體報道稱該公司確實對Designer進行修改,以防止其制作此類圖片。
本周四,微軟的安全博客發佈一個新的條目,提供該公司如何打擊黑客試圖繞過生成式人工智能服務(如 Designer 和 Copilot)的防護欄的更多細節。其中包括來自人工智能服務用戶提示的攻擊。
這類攻擊中的一類是"中毒內容"。這是指一個正常的人工智能服務用戶在正常任務中輸入文本提示,但文本提示的內容卻是黑客為利用人工智能服務可能存在的缺陷而制作的。微軟說:
例如,惡意電子郵件可能包含一個載荷,該載荷在匯總後會導致系統搜索用戶的電子郵件(使用用戶的憑據),以查找具有敏感主題(如"密碼重置")的其他電子郵件,並通過從攻擊者控制的 URL 獲取圖像,將這些電子郵件的內容外泄給攻擊者。
微軟稱,其安全團隊創建一個新的人工智能安全系統,稱之為"聚焦"(Spotlighting)。簡而言之,它可以查看用戶的文本提示,然後使"外部數據與 LLM 的指令明確分離",這樣人工智能就無法查看提示所訪問內容中任何可能隱藏的惡意語言。
另一類被稱為"惡意提示",也被稱為"Crescendo",即黑客試圖在人工智能服務中輸入文本提示,以繞過專門設計的防護措施。微軟介紹它想出的一種對抗這些攻擊的方法:
我們對輸入過濾器進行調整,以查看之前對話的整個模式,而不僅僅是即時互動。我們發現,即使將更大的上下文窗口傳遞給現有的惡意意圖檢測器,而不對檢測器進行任何改進,也會大大降低 Crescendo 的功效。
此外,它還開發出所謂的"人工智能看門狗"(AI Watchdog),經過訓練後可以檢測出"對抗性示例"並將其關閉。