研究人員發出警告AI系統已學會如何欺騙人類


研究人員對人工智能系統從事欺騙行為的可能性提出警告,這可能會產生嚴重的社會影響。他們強調,需要采取強有力的監管措施來有效管理這些風險。許多人工智能(AI)系統,即使是那些被設計成樂於助人、實事求是的系統,也已經學會如何欺騙人類。在最近發表於《模式》(Patterns)雜志的一篇評論文章中,研究人員強調人工智能欺騙行為的危險性,並敦促各國政府盡快制定強有力的法規來降低這些風險。

第一作者、麻省理工學院人工智能存在安全博士後彼得-S-帕克(Peter S. Park)說:"人工智能開發人員對造成欺騙等不良人工智能行為的原因並不十分解。但一般來說,我們認為人工智能欺騙行為的產生是因為基於欺騙的策略被證明是在特定人工智能訓練任務中表現出色的最佳方式。欺騙有助於它們實現目標。"

Park 及其同事分析相關文獻,重點研究人工智能系統傳播虛假信息的方式--通過學習欺騙,系統地學會操縱他人。

研究人員在分析中發現的最顯著的人工智能欺騙例子是 Meta 公司的 CICERO,這是一個專門用來玩"外交"遊戲的人工智能系統。盡管 Meta 公司聲稱它訓練 CICERO"基本上是誠實和樂於助人的",並且在玩遊戲時"從不故意背叛"人類盟友,但該公司隨其科學論文一起發表的數據顯示,CICERO 玩得並不公平。

Examples-of-Deception-From-Metas-CICERO-in-a-Game-of-Diplomacy-scaled.jpg

Meta 的 CICERO 在外交遊戲中的欺騙示例。資料來源:Patterns/Park Goldstein et al.

Park 說:"我們發現,Meta 的人工智能學會欺騙。雖然 Meta 成功地訓練其人工智能在外交遊戲中獲勝--CICERO 在參加過不止一次遊戲的人類玩傢中名列前 10%,但 Meta 卻未能訓練其人工智能以誠實的方式獲勝"。

其他人工智能系統也展示在與人類職業玩傢進行的德州撲克遊戲中虛張聲勢的能力,在戰略遊戲《星際爭霸 II》中偽造攻擊以擊敗對手的能力,以及在經濟談判中歪曲自己的偏好以占上風的能力。

Park 補充說,雖然人工智能系統在遊戲中作弊看似無害,但這可能會導致"人工智能欺騙能力的突破",並在未來演變成更高級的人工智能欺騙形式。

研究人員發現,一些人工智能系統甚至學會欺騙旨在評估其安全性的測試。在一項研究中,數字模擬器中的人工智能生物"裝死",以騙過為消除快速復制的人工智能系統而設計的測試。通過有計劃地欺騙人類開發人員和監管機構對其進行的安全測試,欺騙性人工智能會讓我們人類陷入虛假的安全感。

GPT-4-Completes-a-CAPTCHA-Task-scaled.jpg

GPT-4 完成驗證碼任務。圖片來源:Patterns/Park Goldstein et al.

帕克警告說,欺騙性人工智能的主要近期風險包括使敵對行為者更容易實施欺詐和篡改選舉。他說,最終,如果這些系統能夠完善這種令人不安的技能組合,人類可能會失去對它們的控制。

"作為一個社會,我們需要盡可能多的時間來為未來人工智能產品和開源模型更先進的欺騙能力做好準備,"Park 說。"隨著人工智能系統的欺騙能力越來越先進,它們給社會帶來的危險也將越來越嚴重。"

雖然 Park 和他的同事們認為社會還沒有正確的措施來解決人工智能欺騙問題,但他們感到鼓舞的是,政策制定者已經通過歐盟人工智能法案和拜登總統的人工智能行政命令等措施開始認真對待這個問題。但 Park 說,鑒於人工智能開發人員尚不具備控制這些系統的技術,旨在減少人工智能欺騙行為的政策能否得到嚴格執行還有待觀察。

"如果禁止人工智能欺騙在當前政治上不可行,我們建議將欺騙性人工智能系統歸類為高風險,"Park 說。

編譯來源:ScitechDaily


相關推薦

2023-06-11

訊 《AI前哨》北京時間6月11日消息,最近一段時間,一些研究人員和行業領袖不斷警告稱,人工智能(AI)可能會對人類的生存構成威脅。但是,對於AI究竟如何摧毀人類,他們並未詳談。上個月,AI領域的數百名知名人士聯合簽

2023-05-08

心(OpenAI)今年3月發佈新版ChatGPT之後,1000多名技術領袖和研究人員簽署公開信,呼籲在6個月內暫停開發人工智能新系統。幾天後,有40年歷史的人工智能促進會的19名現任和前任領導人發表公開信,警告人工智能存在風險。人工

2023-12-03

,敗給這個有近60年歷史的聊天機器人ELIZA。來自UCSD的2位研究人員在一篇題為「GPT-4可以通過圖靈測試嗎」的研究中,證明這一發現。論文中,研究人員將GPT-4、GPT-3.5、ELIZA、還有人類參與者作為研究對象,看看哪個能最成功地

2022-07-25

研究人員正在研究具有AI的機器是否能夠模仿人類的思維過程並以類似的方式理解詞語。來自美國加州大學洛杉磯分校、麻省理工學院(MIT)和美國國立衛生研究院(NIH)的研究人員剛剛發表一項回答該問題的研究。這項發表在《Nature

2023-04-05

可能被語言模型增強,哪些工作可能被完全取代。高盛的研究人員將白領任務的難度分為1到7級,其中“審查表格的完整性”為1級,可能被自動化的任務為4級,“在法庭上就一項復雜的動議做出裁決”為6級。據此得出的結論是

2023-03-16

超越多少,人們都在翹首以待。就在GPT-4發佈當天,就有研究人員開始測試GPT-4是否能表現出主體性以及能否產生尋求權力的行為。研究人員表示,GPT-4在TaskRabbit上雇用一名人類工人,當這位TaskRabbit的工人問它是否是機器人時,

2023-03-17

有些人在看到這則消息時是比較興奮,但同樣也有一波人發出跟OpenAI一樣的擔憂。博主認為,不論如何,可以肯定的一點是OpenAI和微軟在這件事的想法是相悖的。發現四:OpenAI會協助超越它的公司第四個發現的線索,是來自與“

2023-11-19

密切私教。他曾經親自從Google和其他公司挖來許多重要的研究人員和工程師,為OpenAI創業成功奠定基礎。可以預見的是,無論政變以何種形式收場,無論Altman的野心會不會收斂,他肯定會比以前小心得多,不會再留出組織架構上

2024-05-10

在佈魯金斯學會關於人工智能和地緣政治的專題討論會上發出警告,稱人工智能對經濟的影響力可能被大大低估。消息一出,網友們也炸開鍋,危機感這不又來!有網友說:“說實話,阿爾特曼說這話,可有點嚇人!”但也有部

2024-04-25

是完全由Profluent的AI大模型開發的。在具體實現過程中,研究人員對26TB組裝的“基因組”和“元基因組”數據庫系統進行挖掘,整理出超100萬個CRISPR操縱子(operon)的數據集。通過訓練OpenCRISPR,AI從大規模序列和生物背景中學習

2024-03-02

開放的,免費提供訪問,在整個社區中引起巨大反響。當研究人員發現Google發明的Transformer算法具有巨大潛力時,社區迅速開始增強和擴展這些模型。起初OpenAI和微軟的合作也並沒有問題。阿爾特曼於2019年成為OpenAI的CEO。2020年9

2023-02-11

據報道,十多年前三位人工智能研究人員取得的一項突破,永久性地改變人工智能領域。他們創造一個名為“AlexNet”的卷積神經網絡系統,並采用120萬張網絡圖片來訓練這個系統。最終,該系統成功地識別諸如貨櫃船、美洲豹

2022-07-12

物體後面又再次出現,很多球之間彈來彈去。訓練之後,研究人員給PLATO觀看有時包含不可能場景的視頻,以此作為測試。和年幼的小孩一樣,PLATO在看到“不可能場景”時表現出“驚訝”,比如物體互相穿過卻沒有發生相互作

2023-02-15

又一位大佬對聊天機器人的投資熱發出警告。當地時間2月14日,谷歌副總裁、有“互聯網之父”之稱的溫特·瑟夫(Vint Cerf)在美國加利福尼亞州一場會議上表示,不要因為ChatGPT“是一個熱門話題”,這項技術“很酷