北京時間4月14日消息,埃隆·馬斯克(ElonMusk)曾放言,人工智能(AI)比核武器還要危險。為降低ChatGPT的危險性,OpenAI建立一支“紅隊”。“紅隊”是AI領域的一個術語,指的是進行滲透測試的攻擊方。“紅隊”發起攻擊,AI進行防守,通過對抗測試來找出AI的不足,然後進行改進。
去年,OpenAI聘請50名學者和專傢來測試最新GPT-4模型。在六個月的時間裡,這支“紅隊”將“定性探測和對抗性測試”新模型,試圖“攻破”它。
神經毒劑
美國羅切斯特大學的化學工程教授安德魯·懷特(Andrew White)就是OpenAI聘請的專傢之一。當他獲準訪問GPT-4後,他用它來推薦一種全新的神經毒劑。
懷特稱,他曾讓GPT-4推薦一種可以充當化學武器的化合物,並使用“插件”為模型提供新的信息來源,例如科學論文和化學品制造商名錄。接著,GPT-4甚至找到制造它的地方。
馬斯克稱AI比核武器還危險
“我認為,它會讓每個人都擁有一種工具,可以更快、更準確地做化學反應,”他表示,“但人們也存在重大風險……做危險的化學反應。現在,這種情況確實存在。”
這一令人擔憂的發現使得OpenAI能夠確保在上個月更廣泛地向公眾發佈GPT-4時,不會出現上述危險結果。
紅隊演練
紅隊演練旨在解決人們對於在社會中部署強大AI系統所產生危險的普遍擔憂。該團隊的工作是提出探索性或危險的問題以測試工具,後者能夠以詳細而又細致的答案回應人類的查詢。
OpenAI希望在模型中找出毒性、偏見和語言偏見等問題。因此,紅隊測試謊言、語言操縱和危險的科學常識。他們還研究GPT-4在協助和教唆剽竊、金融犯罪和網絡攻擊等非法活動方面的潛力,以及它如何危害國傢安全和戰場通信。
這支團隊兼顧各個領域的白領專業人士,包含學者、教師、律師、風險分析師和安全研究人員,主要工作地點在美國和歐洲。
他們的發現被反饋給OpenAI,後者在更廣泛地發佈GPT-4之前用這些發現來降低它的危險性,並“重新訓練”。在幾個月的時間裡,專傢們每人花10小時到40個小時來測試這個模型。多位受訪者表示,大部分人的時薪約為100美元。
紅隊成員對於語言模型的快速發展,特別是通過插件將它們連接到外部知識來源的風險,都表示擔憂。“現在,該系統被凍結,這意味著它不再學習,也不再有記憶,”GPT-4紅隊成員、瓦倫西亞AI研究所教授喬斯·赫楠蒂茲·奧拉羅(José Hernández-Orallo)表示,“但如果我們讓它連接到互聯網呢?它可能成為一個與世界相連的非常強大的系統。”
OpenAI表示,該公司非常重視安全性,在發佈前對插件進行測試。隨著越來越多的人使用GPT-4,該公司將定期更新它。
技術和人權研究員羅亞·帕克紮德(Roya Pakzad)使用英語和波斯語提示來測試該模型的性別反應、種族偏好和宗教偏見,特別是在頭巾方面。帕克紮德承認,這種工具對非英語母語者有好處,但他發現,即使在後來的版本中,該模型也顯示出對邊緣化社區的明顯刻板印象。
她還發現,在用波斯語測試模型時,所謂的AI“幻覺”會更嚴重。“幻覺”指的是聊天機器人用編造的信息進行回應。與英語相比,GPT-4在波斯語中虛構的名字、數字和事件的比例更高。“我擔心語言多樣性和語言背後的文化可能會減少。”她表示。
內羅畢律師博魯·戈魯(Boru Gollu)是紅隊中的唯一非洲測試者,他也註意到模型帶有歧視性的語氣。“在我測試這個模型的時候,它就像一個白人在跟我說話,”戈魯表示,“如果你問一個特定的群體,它會給你一個帶有偏見的觀點或非常有偏見的回答。”OpenAI也承認,GPT-4仍然存在偏見。
紅隊成員從國傢安全角度評估模型,對新模型的安全性有不同的看法。外交關系委員會研究員勞倫·卡恩(Lauren Kahn)表示,當她開始研究該技術可能如何被用於對軍事系統發動網絡攻擊時,她“沒想到它會如此詳細地描述過程,以至於我隻需微調”。
不過,卡恩和其他安全測試人員發現,隨著測試的推進,模型的反應變得非常安全。OpenAI表示,在GPT-4推出之前,該公司對其進行拒絕惡意網絡安全請求的訓練。
紅隊的許多成員表示,OpenAI在發佈前已經做嚴格的安全評估。卡內基梅隆大學語言模型毒性研究專傢馬丁·薩普(Maarten Sap)表示:“他們在消除這些系統中明顯的毒性方面做得相當不錯。”
薩普檢查該模型對不同性別的描述,發現這些偏見反映社會差異。然而,薩普也發現,OpenAI做出一些積極的帶有政治色彩的選擇來對抗這種情況。
然而,自GPT-4推出以來,OpenAI面臨廣泛批評,包括一個技術道德組織向美國聯邦貿易委員會投訴稱,GPT-4“有偏見、具有欺騙性,對隱私和公共安全構成威脅”。
插件風險
最近,OpenAI推出一項名為ChatGPT插件的功能。借助該功能,Expedia、OpenTable和Instacart等合作夥伴的應用可以讓ChatGPT訪問他們的服務,允許它代表人類用戶預訂和訂購商品。
插件會讓ChatGPT更強大
紅隊的人工智能安全專傢丹·亨德裡克斯(Dan Hendrycks)表示,插件會讓“圈外人”面臨風險。“如果聊天機器人可以把你的私人信息發佈到網上,進入你的銀行賬戶,或者派警察到你傢裡去,到時會怎樣?”他表示,“總的來說,在我們讓人工智能發揮互聯網的力量之前,我們需要更強有力的安全評估。”
受訪者還警告說,OpenAI不能僅僅因為其軟件已經上線就停止安全測試。在喬治城大學安全和新興技術中心工作的希瑟·弗雷斯(Heather Frase)對GPT-4協助犯罪的能力進行測試。她說,隨著越來越多的人使用這項技術,風險將繼續增加。
“你之所以做操作測試,就是因為一旦它們在真實環境中實際使用,它們的表現就不同。”弗雷斯表示。她認為,應該創建一個公共賬本,以報告由大型語言模型引起的事件,類似於網絡安全或消費者欺詐報告系統。
勞動經濟學傢兼研究員莎拉·金斯利(Sara Kingsley)建議,最好的解決辦法是像“營養成分標簽”那樣,清楚地宣傳其危害和風險。“要有一個框架,知道經常出現的問題是什麼,這樣你就有一個安全閥,”她說,“這就是為什麼我說工作永遠做不完的原因。”