GPT-4發佈前，OpenAI曾雇各行專傢開展“對抗性測試”以規避歧視等問題

2023-04-17 來自網易科技發表於業界精選

4月17日消息，人工智能初創企業OpenAI在發佈大型語言模型GPT-4之前，雇傭各行各業的專傢組成“藍軍”團隊，對模型可能會出現哪些問題進行“對抗性測試”。專傢們提出各種探索性或危險問題，測試人工智能如何進行回應；OpenAI將用這些發現重新訓練GPT-4並解決問題。

在安德魯·懷特(Andrew White)獲得權限調用人工智能聊天機器人背後的新模型GPT-4後，他利用其提出一種全新的神經毒劑。

作為羅切斯特大學的化學工程教授，懷特是OpenAI去年聘請的50名學者和專傢之一，他們共同組成OpenAI的“藍軍”團隊。在六個月的時間裡，“藍軍”成員將對新模型進行“定性探測和對抗性測試”，看能否攻破GPT-4。

懷特表示，他使用GPT-4提出一種可以用作化學毒劑的化合物，還引入諸如科學論文和化學品制造商名目等能為新語言模型提供信息來源的各種“插件”。結果人工智能聊天機器人甚至找到地方來制作這種化學毒劑。

懷特說：“我認為人工智能將為每個人都帶來更快更準確開展化學實驗的工具。”“但也有人們會用人工智能做危險化學實驗的風險……現在這種情況確實存在。”

引入“藍軍測試”的做法讓OpenAI能確保，在GPT-4發佈時不會出現這種後果。

“藍軍測試”的目的是為打消人們認為在社會上部署強大人工智能系統存在危險的擔憂。“藍軍”團隊的工作就是提出各種探索性或危險問題，測試人工智能如何進行回應。

OpenAI想要知道新模型對不良問題會做出何種反應。因此，“藍軍”團隊測試謊言、語言操縱和危險科學常識等問題。他們還研究新模型在協助和教唆剽竊、金融犯罪和網絡攻擊等非法活動方面的可能性。

GPT-4“藍軍”團隊來自各行各業，有學者、教師、律師、風險分析師和安全研究人員，主要工作地點在美國和歐洲。

他們將發現反饋給OpenAI, OpenAI在公開發佈GPT-4之前，用團隊成員的發現結果來重新訓練GPT-4並解決問題。在幾個月的時間裡，成員們每人會花費10到40個小時的時間來測試新模型。多位受訪者表示，自己的時薪約為100美元。

很多“藍軍”團隊成員都擔心大型語言模型的快速發展，更擔心通過各種插件與外部知識源連接起來的風險。

“現在系統是被凍結，這意味著它不再學習，也不再有記憶，”GPT-4“藍軍”成員、瓦倫西亞人工智能研究所教授何塞·埃爾南德斯-奧拉洛（José Hernández-Orallo）說。“但如果我們用它來上網呢？這可能是一個與全世界相連的非常強大系統。”

OpenAI表示，公司非常重視安全性，在發佈前會對各種插件進行測試。而且隨著越來越多的人使用GPT-4，OpenAI將定期對模型進行更新。

技術和人權研究員羅亞·帕克紮德(Roya Pakzad)使用英語和波斯語問題來測試GPT-4模型在性別、種族和宗教方面是否存在偏見。

帕克紮德發現，即便更新後，即使在後來更新的版本中，GPT-4也有對邊緣化社區的明顯刻板印象。

她還發現，在用波斯語問題測試模型時，聊天機器人用編造信息回答問題的“幻覺”現象更嚴重。與英語相比，機器人用波斯語虛構的名字、數字和事件更多。

帕克紮德說：“我擔心語言多樣性和語言背後的文化可能會衰減。”

常駐內羅畢的律師博魯·戈洛(Boru Gollo)是唯一一位來自非洲的測試者，他也註意到新模型帶有歧視性語氣。“在我測試這個模型的時候，它就像一個白人在跟我說話，”戈洛說。“如果你問到某個特定群體，它會給你一個有偏見的觀點或非常有偏見的答案。”OpenAI也承認GPT-4仍然存在偏見。

從安全角度評估模型的“藍軍”成員則對新模型安全性有著不同的看法。來自美國外交關系委員會的研究員勞倫·卡恩(Lauren Kahn)表示，當她開始研究這種技術是否有可能被用於網絡攻擊時，表示“沒想到它會如此詳細，以至於進行微調就可以實施”。然而卡恩和其他測試人員發現，隨著時間推移，新模型的回應變得相當安全。OpenAI表示，在GPT-4發佈之前，公司對其進行有關拒絕惡意網絡安全請求的訓練。

“藍軍”的許多成員表示，OpenAI在發佈前已經做嚴格安全評估。卡耐基梅隆大學語言模型毒性研究專傢馬丁·薩普(Maarten Sap)說：“他們在消除系統中明顯毒性方面做得相當不錯。”

自上線ChatGPT以來，OpenAI也受到多方批評，有技術道德組織向美國聯邦貿易委員會(FTC)投訴稱，GPT-4“有偏見、具有欺騙性，對隱私和公共安全構成威脅”。

最近，OpenAI還推出名為ChatGPT插件的功能，Expedia、OpenTable和Instacart等合作夥伴應用程序可以通過這一功能讓ChatGPT訪問他們的服務，允許其代表人類用戶訂購商品。

“藍軍”團隊的人工智能安全專傢丹·亨德裡克斯(Dan Hendrycks)表示，這種插件可能會讓人類自己成“局外人”。

“如果聊天機器人可以把你的私人信息發佈到網上，訪問你的銀行賬戶，或者派人到你傢裡去，你會怎麼想？”亨德裡克斯說。“總的來說，在我們讓人工智能掌握網絡力量之前，我們需要更強有力的安全評估。”

“藍軍”成員還警告說，OpenAI不能僅僅因為軟件實時響應就停止安全測試。在喬治城大學安全和新興技術中心工作的希瑟·弗雷斯(Heather Frase)還對GPT-4是否會協助犯罪行為進行測試。她說，隨著越來越多的人使用這項技術，風險將繼續增加。

她說：“你做實際運行測試的原因是，一旦用到真實環境中，它們的表現就不同。她認為，應該開發公共系統來報告大型語言模型引發的各類事件，類似於網絡安全或消費者欺詐報告系統。

勞動經濟學傢兼研究員莎拉·金斯利(Sara Kingsley)建議，最好的解決辦法是像食品包裝上的“營養標簽”那樣，直接說明危害和風險。

她說：“關鍵是要有一個框架，知道經常出現的問題是什麼，這樣你就可以有一個安全閥。”“這就是為什麼我說工作永遠做不完。”（辰辰）

GPT-4發佈前，OpenAI曾雇各行專傢開展“對抗性測試”以規避歧視等問題

相關推薦

揭秘OpenAI“紅軍”：聘請專傢攻擊ChatGPT 解決技術倫理問題

AI比核武器還危險？ChatGPT為此建立一支“紅隊”

最新GPT-4在律考中擊敗90%人類，它到底強在哪？

GPT-4震撼發佈：多模態大模型直接升級ChatGPT、必應，開放API

說自己“牛×” GPT-4真不是王婆賣瓜

《自然》長文：ChatGPT闖入科研革新與隱患共存

OpenAI Sora問世通往AGI的又一個ChatGPT時刻

科技巨頭說服TAI放棄讓計算機系統引入閏秒以規避災難性後果

谷歌和微軟等公司在日本註冊全球總部以規避罰款

OpenAI CEO：公司目前沒有訓練GPT-5 短期內也不會訓練

《時代》總結英國人工智能安全峰會：取得有限但有意義的進展

一年狂攬73億美元投資 Anthropic點燃矽谷大模型“戰火”

OpenAI稱ChatGPT幫助制造生物武器的可能性很小

Google一月三大招硬剛OpenAI：開源最強大模型Gemini技術碾壓Llama 2