AI比核武器還危險？ChatGPT為此建立一支“紅隊”

2023-04-14 來自鳳凰網科技發表於業界精選

北京時間4月14日消息，埃隆·馬斯克(ElonMusk)曾放言，人工智能(AI)比核武器還要危險。為降低ChatGPT的危險性，OpenAI建立一支“紅隊”。“紅隊”是AI領域的一個術語，指的是進行滲透測試的攻擊方。“紅隊”發起攻擊，AI進行防守，通過對抗測試來找出AI的不足，然後進行改進。

去年，OpenAI聘請50名學者和專傢來測試最新GPT-4模型。在六個月的時間裡，這支“紅隊”將“定性探測和對抗性測試”新模型，試圖“攻破”它。

神經毒劑

美國羅切斯特大學的化學工程教授安德魯·懷特(Andrew White)就是OpenAI聘請的專傢之一。當他獲準訪問GPT-4後，他用它來推薦一種全新的神經毒劑。

懷特稱，他曾讓GPT-4推薦一種可以充當化學武器的化合物，並使用“插件”為模型提供新的信息來源，例如科學論文和化學品制造商名錄。接著，GPT-4甚至找到制造它的地方。

馬斯克稱AI比核武器還危險

“我認為，它會讓每個人都擁有一種工具，可以更快、更準確地做化學反應，”他表示，“但人們也存在重大風險……做危險的化學反應。現在，這種情況確實存在。”

這一令人擔憂的發現使得OpenAI能夠確保在上個月更廣泛地向公眾發佈GPT-4時，不會出現上述危險結果。

紅隊演練

紅隊演練旨在解決人們對於在社會中部署強大AI系統所產生危險的普遍擔憂。該團隊的工作是提出探索性或危險的問題以測試工具，後者能夠以詳細而又細致的答案回應人類的查詢。

OpenAI希望在模型中找出毒性、偏見和語言偏見等問題。因此，紅隊測試謊言、語言操縱和危險的科學常識。他們還研究GPT-4在協助和教唆剽竊、金融犯罪和網絡攻擊等非法活動方面的潛力，以及它如何危害國傢安全和戰場通信。

這支團隊兼顧各個領域的白領專業人士，包含學者、教師、律師、風險分析師和安全研究人員，主要工作地點在美國和歐洲。

他們的發現被反饋給OpenAI，後者在更廣泛地發佈GPT-4之前用這些發現來降低它的危險性，並“重新訓練”。在幾個月的時間裡，專傢們每人花10小時到40個小時來測試這個模型。多位受訪者表示，大部分人的時薪約為100美元。

紅隊成員對於語言模型的快速發展，特別是通過插件將它們連接到外部知識來源的風險，都表示擔憂。“現在，該系統被凍結，這意味著它不再學習，也不再有記憶，”GPT-4紅隊成員、瓦倫西亞AI研究所教授喬斯·赫楠蒂茲·奧拉羅(José Hernández-Orallo)表示，“但如果我們讓它連接到互聯網呢？它可能成為一個與世界相連的非常強大的系統。”

OpenAI表示，該公司非常重視安全性，在發佈前對插件進行測試。隨著越來越多的人使用GPT-4，該公司將定期更新它。

技術和人權研究員羅亞·帕克紮德(Roya Pakzad)使用英語和波斯語提示來測試該模型的性別反應、種族偏好和宗教偏見，特別是在頭巾方面。帕克紮德承認，這種工具對非英語母語者有好處，但他發現，即使在後來的版本中，該模型也顯示出對邊緣化社區的明顯刻板印象。

她還發現，在用波斯語測試模型時，所謂的AI“幻覺”會更嚴重。“幻覺”指的是聊天機器人用編造的信息進行回應。與英語相比，GPT-4在波斯語中虛構的名字、數字和事件的比例更高。“我擔心語言多樣性和語言背後的文化可能會減少。”她表示。

內羅畢律師博魯·戈魯(Boru Gollu)是紅隊中的唯一非洲測試者，他也註意到模型帶有歧視性的語氣。“在我測試這個模型的時候，它就像一個白人在跟我說話，”戈魯表示，“如果你問一個特定的群體，它會給你一個帶有偏見的觀點或非常有偏見的回答。”OpenAI也承認，GPT-4仍然存在偏見。

紅隊成員從國傢安全角度評估模型，對新模型的安全性有不同的看法。外交關系委員會研究員勞倫·卡恩(Lauren Kahn)表示，當她開始研究該技術可能如何被用於對軍事系統發動網絡攻擊時，她“沒想到它會如此詳細地描述過程，以至於我隻需微調”。

不過，卡恩和其他安全測試人員發現，隨著測試的推進，模型的反應變得非常安全。OpenAI表示，在GPT-4推出之前，該公司對其進行拒絕惡意網絡安全請求的訓練。

紅隊的許多成員表示，OpenAI在發佈前已經做嚴格的安全評估。卡內基梅隆大學語言模型毒性研究專傢馬丁·薩普(Maarten Sap)表示：“他們在消除這些系統中明顯的毒性方面做得相當不錯。”

薩普檢查該模型對不同性別的描述，發現這些偏見反映社會差異。然而，薩普也發現，OpenAI做出一些積極的帶有政治色彩的選擇來對抗這種情況。

然而，自GPT-4推出以來，OpenAI面臨廣泛批評，包括一個技術道德組織向美國聯邦貿易委員會投訴稱，GPT-4“有偏見、具有欺騙性，對隱私和公共安全構成威脅”。

插件風險

最近，OpenAI推出一項名為ChatGPT插件的功能。借助該功能，Expedia、OpenTable和Instacart等合作夥伴的應用可以讓ChatGPT訪問他們的服務，允許它代表人類用戶預訂和訂購商品。

插件會讓ChatGPT更強大

紅隊的人工智能安全專傢丹·亨德裡克斯(Dan Hendrycks)表示，插件會讓“圈外人”面臨風險。“如果聊天機器人可以把你的私人信息發佈到網上，進入你的銀行賬戶，或者派警察到你傢裡去，到時會怎樣?”他表示，“總的來說，在我們讓人工智能發揮互聯網的力量之前，我們需要更強有力的安全評估。”

受訪者還警告說，OpenAI不能僅僅因為其軟件已經上線就停止安全測試。在喬治城大學安全和新興技術中心工作的希瑟·弗雷斯(Heather Frase)對GPT-4協助犯罪的能力進行測試。她說，隨著越來越多的人使用這項技術，風險將繼續增加。

“你之所以做操作測試，就是因為一旦它們在真實環境中實際使用，它們的表現就不同。”弗雷斯表示。她認為，應該創建一個公共賬本，以報告由大型語言模型引起的事件，類似於網絡安全或消費者欺詐報告系統。

勞動經濟學傢兼研究員莎拉·金斯利(Sara Kingsley)建議，最好的解決辦法是像“營養成分標簽”那樣，清楚地宣傳其危害和風險。“要有一個框架，知道經常出現的問題是什麼，這樣你就有一個安全閥，”她說，“這就是為什麼我說工作永遠做不完的原因。”

AI比核武器還危險？ChatGPT為此建立一支“紅隊”

相關推薦

姚期智等三十餘位專傢達成共識：AI不應違反紅線

AI教父發出警告：新版人工智能會讓殺人機器人變為現實

“ChatGPT之父”劍橋演講遭抵制學術大佬激戰AI安全

數十位頂級科學傢聯名呼籲防止不懷好意者利用AI發展生物武器

科學傢研發AI激光炮塔擊殺蟑螂項目已開源

ChatGPT之父Sam Altman首次公開表態：GPT-5根本不存在

巴菲特警告:AI 就像核武器一樣危險

OpenAI大模型GPT-5要來！“提升很大”

AI哨所｜著名“AI教父”從谷歌離職：我為發展AI而後悔

OpenAI稱ChatGPT幫助制造生物武器的可能性很小

黃仁勛：OpenAI首臺AI超算是馬斯克買的

美國陸軍概述其對2030年軍隊的願景

微軟年度盛會今夜舉行：全面聚焦AI 還將帶來這一“秘密武器”

美國人真的開始害怕AI