研究人員對人工智能系統從事欺騙行為的可能性提出警告,這可能會產生嚴重的社會影響。他們強調,需要采取強有力的監管措施來有效管理這些風險。許多人工智能(AI)系統,即使是那些被設計成樂於助人、實事求是的系統,也已經學會如何欺騙人類。在最近發表於《模式》(Patterns)雜志的一篇評論文章中,研究人員強調人工智能欺騙行為的危險性,並敦促各國政府盡快制定強有力的法規來降低這些風險。
第一作者、麻省理工學院人工智能存在安全博士後彼得-S-帕克(Peter S. Park)說:"人工智能開發人員對造成欺騙等不良人工智能行為的原因並不十分解。但一般來說,我們認為人工智能欺騙行為的產生是因為基於欺騙的策略被證明是在特定人工智能訓練任務中表現出色的最佳方式。欺騙有助於它們實現目標。"
Park 及其同事分析相關文獻,重點研究人工智能系統傳播虛假信息的方式--通過學習欺騙,系統地學會操縱他人。
研究人員在分析中發現的最顯著的人工智能欺騙例子是 Meta 公司的 CICERO,這是一個專門用來玩"外交"遊戲的人工智能系統。盡管 Meta 公司聲稱它訓練 CICERO"基本上是誠實和樂於助人的",並且在玩遊戲時"從不故意背叛"人類盟友,但該公司隨其科學論文一起發表的數據顯示,CICERO 玩得並不公平。
Meta 的 CICERO 在外交遊戲中的欺騙示例。資料來源:Patterns/Park Goldstein et al.
Park 說:"我們發現,Meta 的人工智能學會欺騙。雖然 Meta 成功地訓練其人工智能在外交遊戲中獲勝--CICERO 在參加過不止一次遊戲的人類玩傢中名列前 10%,但 Meta 卻未能訓練其人工智能以誠實的方式獲勝"。
其他人工智能系統也展示在與人類職業玩傢進行的德州撲克遊戲中虛張聲勢的能力,在戰略遊戲《星際爭霸 II》中偽造攻擊以擊敗對手的能力,以及在經濟談判中歪曲自己的偏好以占上風的能力。
Park 補充說,雖然人工智能系統在遊戲中作弊看似無害,但這可能會導致"人工智能欺騙能力的突破",並在未來演變成更高級的人工智能欺騙形式。
研究人員發現,一些人工智能系統甚至學會欺騙旨在評估其安全性的測試。在一項研究中,數字模擬器中的人工智能生物"裝死",以騙過為消除快速復制的人工智能系統而設計的測試。通過有計劃地欺騙人類開發人員和監管機構對其進行的安全測試,欺騙性人工智能會讓我們人類陷入虛假的安全感。
GPT-4 完成驗證碼任務。圖片來源:Patterns/Park Goldstein et al.
帕克警告說,欺騙性人工智能的主要近期風險包括使敵對行為者更容易實施欺詐和篡改選舉。他說,最終,如果這些系統能夠完善這種令人不安的技能組合,人類可能會失去對它們的控制。
"作為一個社會,我們需要盡可能多的時間來為未來人工智能產品和開源模型更先進的欺騙能力做好準備,"Park 說。"隨著人工智能系統的欺騙能力越來越先進,它們給社會帶來的危險也將越來越嚴重。"
雖然 Park 和他的同事們認為社會還沒有正確的措施來解決人工智能欺騙問題,但他們感到鼓舞的是,政策制定者已經通過歐盟人工智能法案和拜登總統的人工智能行政命令等措施開始認真對待這個問題。但 Park 說,鑒於人工智能開發人員尚不具備控制這些系統的技術,旨在減少人工智能欺騙行為的政策能否得到嚴格執行還有待觀察。
"如果禁止人工智能欺騙在當前政治上不可行,我們建議將欺騙性人工智能系統歸類為高風險,"Park 說。
編譯來源:ScitechDaily