GPT-4發佈前,OpenAI曾雇各行專傢開展“對抗性測試”以規避歧視等問題


4月17日消息,人工智能初創企業OpenAI在發佈大型語言模型GPT-4之前,雇傭各行各業的專傢組成“藍軍”團隊,對模型可能會出現哪些問題進行“對抗性測試”。專傢們提出各種探索性或危險問題,測試人工智能如何進行回應;OpenAI將用這些發現重新訓練GPT-4並解決問題。

在安德魯·懷特(Andrew White)獲得權限調用人工智能聊天機器人背後的新模型GPT-4後,他利用其提出一種全新的神經毒劑。

作為羅切斯特大學的化學工程教授,懷特是OpenAI去年聘請的50名學者和專傢之一,他們共同組成OpenAI的“藍軍”團隊。在六個月的時間裡,“藍軍”成員將對新模型進行“定性探測和對抗性測試”,看能否攻破GPT-4。

懷特表示,他使用GPT-4提出一種可以用作化學毒劑的化合物,還引入諸如科學論文和化學品制造商名目等能為新語言模型提供信息來源的各種“插件”。結果人工智能聊天機器人甚至找到地方來制作這種化學毒劑。

懷特說:“我認為人工智能將為每個人都帶來更快更準確開展化學實驗的工具。”“但也有人們會用人工智能做危險化學實驗的風險……現在這種情況確實存在。”

引入“藍軍測試”的做法讓OpenAI能確保,在GPT-4發佈時不會出現這種後果。

“藍軍測試”的目的是為打消人們認為在社會上部署強大人工智能系統存在危險的擔憂。“藍軍”團隊的工作就是提出各種探索性或危險問題,測試人工智能如何進行回應。

OpenAI想要知道新模型對不良問題會做出何種反應。因此,“藍軍”團隊測試謊言、語言操縱和危險科學常識等問題。他們還研究新模型在協助和教唆剽竊、金融犯罪和網絡攻擊等非法活動方面的可能性。

GPT-4“藍軍”團隊來自各行各業,有學者、教師、律師、風險分析師和安全研究人員,主要工作地點在美國和歐洲。

他們將發現反饋給OpenAI, OpenAI在公開發佈GPT-4之前,用團隊成員的發現結果來重新訓練GPT-4並解決問題。在幾個月的時間裡,成員們每人會花費10到40個小時的時間來測試新模型。多位受訪者表示,自己的時薪約為100美元。

很多“藍軍”團隊成員都擔心大型語言模型的快速發展,更擔心通過各種插件與外部知識源連接起來的風險。

“現在系統是被凍結,這意味著它不再學習,也不再有記憶,”GPT-4“藍軍”成員、瓦倫西亞人工智能研究所教授何塞·埃爾南德斯-奧拉洛(José Hernández-Orallo)說。“但如果我們用它來上網呢?這可能是一個與全世界相連的非常強大系統。”

OpenAI表示,公司非常重視安全性,在發佈前會對各種插件進行測試。而且隨著越來越多的人使用GPT-4,OpenAI將定期對模型進行更新。

技術和人權研究員羅亞·帕克紮德(Roya Pakzad)使用英語和波斯語問題來測試GPT-4模型在性別、種族和宗教方面是否存在偏見。

帕克紮德發現,即便更新後,即使在後來更新的版本中,GPT-4也有對邊緣化社區的明顯刻板印象。

她還發現,在用波斯語問題測試模型時,聊天機器人用編造信息回答問題的“幻覺”現象更嚴重。與英語相比,機器人用波斯語虛構的名字、數字和事件更多。

帕克紮德說:“我擔心語言多樣性和語言背後的文化可能會衰減。”

常駐內羅畢的律師博魯·戈洛(Boru Gollo)是唯一一位來自非洲的測試者,他也註意到新模型帶有歧視性語氣。“在我測試這個模型的時候,它就像一個白人在跟我說話,”戈洛說。“如果你問到某個特定群體,它會給你一個有偏見的觀點或非常有偏見的答案。”OpenAI也承認GPT-4仍然存在偏見。

從安全角度評估模型的“藍軍”成員則對新模型安全性有著不同的看法。來自美國外交關系委員會的研究員勞倫·卡恩(Lauren Kahn)表示,當她開始研究這種技術是否有可能被用於網絡攻擊時,表示“沒想到它會如此詳細,以至於進行微調就可以實施”。然而卡恩和其他測試人員發現,隨著時間推移,新模型的回應變得相當安全。OpenAI表示,在GPT-4發佈之前,公司對其進行有關拒絕惡意網絡安全請求的訓練。

“藍軍”的許多成員表示,OpenAI在發佈前已經做嚴格安全評估。卡耐基梅隆大學語言模型毒性研究專傢馬丁·薩普(Maarten Sap)說:“他們在消除系統中明顯毒性方面做得相當不錯。”

自上線ChatGPT以來,OpenAI也受到多方批評,有技術道德組織向美國聯邦貿易委員會(FTC)投訴稱,GPT-4“有偏見、具有欺騙性,對隱私和公共安全構成威脅”。

最近,OpenAI還推出名為ChatGPT插件的功能,Expedia、OpenTable和Instacart等合作夥伴應用程序可以通過這一功能讓ChatGPT訪問他們的服務,允許其代表人類用戶訂購商品。

“藍軍”團隊的人工智能安全專傢丹·亨德裡克斯(Dan Hendrycks)表示,這種插件可能會讓人類自己成“局外人”。

“如果聊天機器人可以把你的私人信息發佈到網上,訪問你的銀行賬戶,或者派人到你傢裡去,你會怎麼想?”亨德裡克斯說。“總的來說,在我們讓人工智能掌握網絡力量之前,我們需要更強有力的安全評估。”

“藍軍”成員還警告說,OpenAI不能僅僅因為軟件實時響應就停止安全測試。在喬治城大學安全和新興技術中心工作的希瑟·弗雷斯(Heather Frase)還對GPT-4是否會協助犯罪行為進行測試。她說,隨著越來越多的人使用這項技術,風險將繼續增加。

她說:“你做實際運行測試的原因是,一旦用到真實環境中,它們的表現就不同。她認為,應該開發公共系統來報告大型語言模型引發的各類事件,類似於網絡安全或消費者欺詐報告系統。

勞動經濟學傢兼研究員莎拉·金斯利(Sara Kingsley)建議,最好的解決辦法是像食品包裝上的“營養標簽”那樣,直接說明危害和風險。

她說:“關鍵是要有一個框架,知道經常出現的問題是什麼,這樣你就可以有一個安全閥。”“這就是為什麼我說工作永遠做不完。”(辰辰)


相關推薦

2023-04-17

動,帶來很大的風險。”上個月,OpenAI面向更廣泛的公眾發佈這項新技術,而這些令人驚訝的發現確保新技術不會帶來不良後果。事實上,“紅軍”的演習目的是探索並解在社會上部署先進人工智能系統會造成什麼樣的風險,解

2023-04-14

人擔憂的發現使得OpenAI能夠確保在上個月更廣泛地向公眾發佈GPT-4時,不會出現上述危險結果。紅隊演練紅隊演練旨在解決人們對於在社會中部署強大AI系統所產生危險的普遍擔憂。該團隊的工作是提出探索性或危險的問題以測

2023-03-15

“碼農真的快失業,編程不存在。”在今早GPT-4發佈之後,朋友圈刷屏,很多人表達該技術對目前人類生產生活的影響。GPT-4有多強,GRE考試接近滿分,律考比肩頂級律師,隨手畫個草圖就能做出同款網頁。當國內還在熱議人工

2023-03-15

學者都提到多模態,我們並沒有等太久。今天凌晨,OpenAI發佈多模態預訓練大模型GPT-4。GPT-4 實現以下幾個方面的飛躍式提升:強大的識圖能力;文字輸入限制提升至 2.5 萬字;回答準確性顯著提高;能夠生成歌詞、創意文本,

2023-03-16

男人在出租車上面熨衣服”。這不是暢想,而是OpenAI最新發佈的大型多模態GPT-4已經具備的能力。北京時間3月15日凌晨,OpenAI正式發佈該模型。簡單來說,GPT-4與前代相比可以接受的文本輸入上限更高,回答的準確性提高,能夠

2023-02-21

很低,一篇論文隻要0.50美元不到。Greene和Pividori在1月23日發佈的預印本論文中描述這個助理,它不是一個人,而是一個AI算法,名叫GPT-3,2020年首次問世。這是一個當下很火的生成式AI對話工具,能生成通順流暢的文本,無論是

2024-02-16

a。人們一直期待GPT-5,但Sora帶來的轟動不亞於一次GPT-5的發佈。作為OpenAI 首推的文本轉視頻模型,Sora能夠根據文本指令或靜態圖像生成長達 1分鐘的視頻,其中包含精細復雜的場景、生動的角色表情以及復雜的鏡頭運動。同時

2022-08-09

示:根據我們的預測,若堅持使用國際原子時(TAI)而不開展閏秒觀測,至少也可以穩妥度過 2000 個年頭。等到真正需要的時候,再去折騰也不遲。好消息是,美國國傢標準與技術研究院(NIST)、法國國際計量局(BIPM)和一眾

2022-07-26

日本法律規定,出於稅收和消費者保護目的,繼續在日本開展業務的外國企業必須在該國註冊其海外總部。但許多科技跨國公司隻註冊日本分公司。今年6月有報道稱,日本法務省3月要求48傢公司提交書面文件。共有31傢公司表示

2023-04-15

在訓練GPT-5,而且“短期內也不會訓練”。OpenAI今年三月發佈的大語言模型GPT-4,GPT-5被認為是其繼任者。最近在科技界流傳的一封公開信,要求像OpenAI這樣的實驗室暫停開發“比GPT-4更強大”的AI系統。這封信強調對未來AI系統安

2023-11-06

將是我們所能想象的最大悲劇。"另一方面,美國本周發佈的幾項聲明有可能使英國在人工智能安全方面的全球領導地位黯然失色。美國副總統卡馬拉-哈裡斯(Kamala Harris)周三在倫敦發表演講時宣佈美國的一系列行動,其中

2024-03-06

3又來。3月4日晚,被稱之為是OpenAI最強競爭對手的Anthropic發佈其最新大模型系列Claude3。該系列包含三個模型,能力由強至弱分別是Claude3Opus(著作)、Claude3Sonnet(十四行詩)和Claude3Haiku(俳句)。Anthropic發佈的跑分顯示,Opus在

2024-02-02

根據OpenAI的一項自行研究,在研究生物武器方面,OpenAI的GPT-4隻比普通互聯網搜索工具略勝一籌。據彭博社報道,這項研究是由OpenAI的新準備團隊進行的,該團隊於去年秋天成立,目的是評估該公司前沿人工智能模型的風險和潛

2024-02-22

昨日晚間,Google毫無預兆地發佈開源模型Gemma,直接狙擊Llama2,繼通過Gemini拳打OpenAI後,試圖用Gemma腳踢Meta。不同於Gemini的“全傢桶”路線,Gemma主打輕量級、高性能,有20億、70億兩種參數規模,能在筆記本電腦、臺式機、物聯