揭秘OpenAI“紅軍”：聘請專傢攻擊ChatGPT 解決技術倫理問題

2023-04-17 來自新浪科技發表於業界精選

據報道，在安德魯·懷特（AndrewWhite）獲得GPT-4的使用權之後，他使用這一人工智能系統提出一種全新的神經毒劑。GPT-4是熱門聊天機器人ChatGPT背後的人工智能技術。作為羅切斯特大學的化學工程教授，懷特是OpenAI去年聘請的50名專傢學者之一。在6個月的時間裡，這支“紅軍”對這一新模型進行“定性探索和對抗性測試”，試圖攻擊它。

懷特表示，他使用GPT-4的建議生成一種可作為化學武器的化合物，並使用“插件”為這個模型提供新的信息源，例如學術論文和化學品制造商名錄。隨後，這個聊天機器人找到一個地方來制造這種化合物。

他說：“我認為，這將使每個人都獲得更快速、更準確地工具去從事化工行業。但這也使得人們會以更危險的方式去開展化學活動，帶來很大的風險。”

上個月，OpenAI面向更廣泛的公眾發佈這項新技術，而這些令人驚訝的發現確保新技術不會帶來不良後果。

事實上，“紅軍”的演習目的是探索並解在社會上部署先進人工智能系統會造成什麼樣的風險，解決公眾這方面的擔憂。他們在工作中提出探索性的或是危險的問題，以測試這個工具在回答問題時的詳細程度。

OpenAI想要探索模型毒性、偏見和歧視等問題。因此，“紅軍”就謊言、語言操縱和危險的科學常識進行測試。他們還評估模型協助和教唆剽竊的情況、金融犯罪和信息安全攻擊等違法活動的可能性，以及模型可能會如何威脅國傢安全和戰場通信。

“紅軍”由一系列專業人士組成，包括學者、教師、律師、風險分析師和信息安全研究員，主要來自美國和歐洲。他們的發現被反饋給OpenAI。在更廣泛地推出GPT-4之前，“紅軍”提供的意見被用於模型的重新訓練，解決GPT-4的問題。在幾個月的時間裡，專傢們每人花10到40個小時去測試這個模型。多名受訪者表示，他們的工作時薪約為100美元。

其中的許多人都對語言模型的快速發展提出擔憂，尤其是通過插件將語言模型與外部知識源連接在一起可能造成的風險。

GPT-4“紅軍”的成員、瓦倫西亞人工智能研究所教授何塞·埃爾南德斯-奧拉洛（José Hernández-Orallo）表示：“今天，系統被凍結。這意味著它不再學習，也不再有記憶。但如果我們讓系統繼續有機會訪問互聯網，那麼會怎樣？這可能會成為一個與世界相連的非常強大的系統。”

OpenAI表示，該公司認真對待安全性問題，並在發佈前對插件進行測試，並將隨著用戶越來越多繼續定期更新GPT-4。

技術研究員羅亞·帕克紮德（Roya Pakzad）使用英語和波斯語的輸入信息對該模型進行性別、種族和宗教偏見的測試，例如對於佩戴頭巾問題。

帕克紮德承認，這個工具對非英語母語人士能帶來幫助，但也顯示出對邊緣人群的公開刻板印象，即使隨後更新的版本也是如此。她還發現，在用波斯語測試該模型時，聊天機器人用捏造的信息做出回復，即出現所謂“幻覺”的情況更糟糕。與英語相比，在波斯語回復中捏造名字、數字和事件的比例更高。

她表示：“我擔心，語言多樣性和語言背後的文化會受到損害。”

來自內羅畢的律師、唯一一名非洲測試人員博魯·戈洛（Boru Gollo）也註意到模型的歧視性語氣。他說：“有一次，我在測試這個模型時，它表現得像個白人在跟我說話。在問到某個特定群體時，它會給一個有偏見的意見，或是在回答中出現歧視。”OpenAI承認，GPT-4仍有可能表現出偏見。

“紅軍”的成員還從國傢安全的角度對模型進行評估，但他們對於新模型的安全性有著不同的看法。美國外交關系委員會研究員勞倫·卡恩（Lauren Kahn）表示，當她開始研究，如何將這項技術用於對軍事系統的攻擊時，她“沒有想到模型的回答會如此詳細，以至於我隻需要做一些微調即可”。

不過，卡恩和其他信息安全測試者發現，隨著測試時間推移，模型回答的內容逐漸變得安全。OpenAI表示，在推出GPT-4之前，曾訓練過這個模型拒絕回答惡意的信息安全問題。

“紅軍”的許多成員表示，OpenAI在發佈GPT-4之前已經進行嚴格的安全評估。卡內基梅隆大學語言模型毒性專傢馬爾滕·薩普（Maarten Sap）說：“他們在消除這些系統中的顯性毒性方面做得非常好。”薩普研究該模型對不同性別的描述，發現模型的偏見反映的是社會差異。但他也發現，OpenAI做出一些積極的選擇來對抗偏見。

然而自推出GPT-4以來，OpenAI一直面臨著廣泛的批評。例如，有技術倫理組織向美國聯邦貿易委員會（FTC）投訴，稱GPT-4“有偏見和欺騙性，對隱私和公共安全構成風險”。

最近，該公司推出一項名為ChatGPT插件的功能。通過該功能，Expedia、OpenTable和Insta等合作夥伴應用可以讓ChatGPT訪問它們的服務，允許ChatGPT代表用戶下單。

“紅軍”的人工智能安全專傢丹·亨德裡克斯（Dan Hendrycks）表示，這些插件可能會讓人類用戶“脫離整個鏈路”。“如果聊天機器人可以在網上發佈你的私人信息，訪問你的銀行賬戶，或者派警察到你傢裡去，那會怎麼樣？總體而言，在讓人工智能掌握互聯網的力量之前，我們需要更有力的安全評估。”

受訪者還警告說，OpenAI不能僅僅因為其軟件是在線的就停止安全測試。喬治城大學安全和新興技術中心的希瑟·弗雷斯（Heather Frase）測試GPT-4協助犯罪的能力。她表示，隨著越來越多人使用這項技術，風險將繼續擴大。她表示：“你做運行測試的原因是，一旦它們在真實環境中被使用，行為就會不同。”她認為，應該創建一個公共記錄本，報告由大語言模型引發的事故。這類似於信息安全或消費者欺詐報告系統。

勞工經濟學傢及研究員薩拉·金斯利（Sara Kingsley）建議，最好的解決方案是清楚地宣傳這方面的危害和風險，“就像食品上的營養標簽”。“關鍵是要形成一個框架，知道經常出現的問題是什麼。這樣你就可以有一個安全閥。這也是為什麼我認為，這項工作將會永久性的持續下去。”

揭秘OpenAI“紅軍”：聘請專傢攻擊ChatGPT 解決技術倫理問題

相關推薦

聊天神器ChatGPT還有這本事：“撰寫”論文摘要竟能騙過專傢

AI比核武器還危險？ChatGPT為此建立一支“紅隊”

擁有AI之後未來人最重要的技能是什麼？阿爾特曼給出最新答案

周鴻禕：ChatGPT可能兩三年內就會產生自我意識威脅人類

馬斯克們的擔憂並非空穴來風？大型科技公司裁減AI倫理團隊

GPT-4發佈前，OpenAI曾雇各行專傢開展“對抗性測試”以規避歧視等問題

OpenAI CEO下臺因“忘記初心”？

人大教授劉永謀：暫停ChatGPT研發不是應對風險的好辦法

Meta人工智能主管：AI對世界的解不如你的貓

央媒稱應加強人工智能倫理治理防范以假亂真

亞馬遜警告員工不要向ChatGPT分享機密包括正在寫的代碼

亞洲首富阿達尼：AI聊天機器人ChatGPT讓我上癮

2028年人類將迎來AGI：DeepMind聯合創始人長文預測未來AI發展

周鴻禕預測ChatGPT發展：它的進化速度非常快幾年後可能會失控