揭秘OpenAI“紅軍”:聘請專傢攻擊ChatGPT 解決技術倫理問題


據報道,在安德魯·懷特(AndrewWhite)獲得GPT-4的使用權之後,他使用這一人工智能系統提出一種全新的神經毒劑。GPT-4是熱門聊天機器人ChatGPT背後的人工智能技術。作為羅切斯特大學的化學工程教授,懷特是OpenAI去年聘請的50名專傢學者之一。在6個月的時間裡,這支“紅軍”對這一新模型進行“定性探索和對抗性測試”,試圖攻擊它。

懷特表示,他使用GPT-4的建議生成一種可作為化學武器的化合物,並使用“插件”為這個模型提供新的信息源,例如學術論文和化學品制造商名錄。隨後,這個聊天機器人找到一個地方來制造這種化合物。

他說:“我認為,這將使每個人都獲得更快速、更準確地工具去從事化工行業。但這也使得人們會以更危險的方式去開展化學活動,帶來很大的風險。”

上個月,OpenAI面向更廣泛的公眾發佈這項新技術,而這些令人驚訝的發現確保新技術不會帶來不良後果。

事實上,“紅軍”的演習目的是探索並解在社會上部署先進人工智能系統會造成什麼樣的風險,解決公眾這方面的擔憂。他們在工作中提出探索性的或是危險的問題,以測試這個工具在回答問題時的詳細程度。

OpenAI想要探索模型毒性、偏見和歧視等問題。因此,“紅軍”就謊言、語言操縱和危險的科學常識進行測試。他們還評估模型協助和教唆剽竊的情況、金融犯罪和信息安全攻擊等違法活動的可能性,以及模型可能會如何威脅國傢安全和戰場通信。

“紅軍”由一系列專業人士組成,包括學者、教師、律師、風險分析師和信息安全研究員,主要來自美國和歐洲。他們的發現被反饋給OpenAI。在更廣泛地推出GPT-4之前,“紅軍”提供的意見被用於模型的重新訓練,解決GPT-4的問題。在幾個月的時間裡,專傢們每人花10到40個小時去測試這個模型。多名受訪者表示,他們的工作時薪約為100美元。

其中的許多人都對語言模型的快速發展提出擔憂,尤其是通過插件將語言模型與外部知識源連接在一起可能造成的風險。

GPT-4“紅軍”的成員、瓦倫西亞人工智能研究所教授何塞·埃爾南德斯-奧拉洛(José Hernández-Orallo)表示:“今天,系統被凍結。這意味著它不再學習,也不再有記憶。但如果我們讓系統繼續有機會訪問互聯網,那麼會怎樣?這可能會成為一個與世界相連的非常強大的系統。”

OpenAI表示,該公司認真對待安全性問題,並在發佈前對插件進行測試,並將隨著用戶越來越多繼續定期更新GPT-4。

技術研究員羅亞·帕克紮德(Roya Pakzad)使用英語和波斯語的輸入信息對該模型進行性別、種族和宗教偏見的測試,例如對於佩戴頭巾問題。

帕克紮德承認,這個工具對非英語母語人士能帶來幫助,但也顯示出對邊緣人群的公開刻板印象,即使隨後更新的版本也是如此。她還發現,在用波斯語測試該模型時,聊天機器人用捏造的信息做出回復,即出現所謂“幻覺”的情況更糟糕。與英語相比,在波斯語回復中捏造名字、數字和事件的比例更高。

她表示:“我擔心,語言多樣性和語言背後的文化會受到損害。”

來自內羅畢的律師、唯一一名非洲測試人員博魯·戈洛(Boru Gollo)也註意到模型的歧視性語氣。他說:“有一次,我在測試這個模型時,它表現得像個白人在跟我說話。在問到某個特定群體時,它會給一個有偏見的意見,或是在回答中出現歧視。”OpenAI承認,GPT-4仍有可能表現出偏見。

“紅軍”的成員還從國傢安全的角度對模型進行評估,但他們對於新模型的安全性有著不同的看法。美國外交關系委員會研究員勞倫·卡恩(Lauren Kahn)表示,當她開始研究,如何將這項技術用於對軍事系統的攻擊時,她“沒有想到模型的回答會如此詳細,以至於我隻需要做一些微調即可”。

不過,卡恩和其他信息安全測試者發現,隨著測試時間推移,模型回答的內容逐漸變得安全。OpenAI表示,在推出GPT-4之前,曾訓練過這個模型拒絕回答惡意的信息安全問題。

“紅軍”的許多成員表示,OpenAI在發佈GPT-4之前已經進行嚴格的安全評估。卡內基梅隆大學語言模型毒性專傢馬爾滕·薩普(Maarten Sap)說:“他們在消除這些系統中的顯性毒性方面做得非常好。”薩普研究該模型對不同性別的描述,發現模型的偏見反映的是社會差異。但他也發現,OpenAI做出一些積極的選擇來對抗偏見。

然而自推出GPT-4以來,OpenAI一直面臨著廣泛的批評。例如,有技術倫理組織向美國聯邦貿易委員會(FTC)投訴,稱GPT-4“有偏見和欺騙性,對隱私和公共安全構成風險”。

最近,該公司推出一項名為ChatGPT插件的功能。通過該功能,Expedia、OpenTable和Insta等合作夥伴應用可以讓ChatGPT訪問它們的服務,允許ChatGPT代表用戶下單。

“紅軍”的人工智能安全專傢丹·亨德裡克斯(Dan Hendrycks)表示,這些插件可能會讓人類用戶“脫離整個鏈路”。“如果聊天機器人可以在網上發佈你的私人信息,訪問你的銀行賬戶,或者派警察到你傢裡去,那會怎麼樣?總體而言,在讓人工智能掌握互聯網的力量之前,我們需要更有力的安全評估。”

受訪者還警告說,OpenAI不能僅僅因為其軟件是在線的就停止安全測試。喬治城大學安全和新興技術中心的希瑟·弗雷斯(Heather Frase)測試GPT-4協助犯罪的能力。她表示,隨著越來越多人使用這項技術,風險將繼續擴大。她表示:“你做運行測試的原因是,一旦它們在真實環境中被使用,行為就會不同。”她認為,應該創建一個公共記錄本,報告由大語言模型引發的事故。這類似於信息安全或消費者欺詐報告系統。

勞工經濟學傢及研究員薩拉·金斯利(Sara Kingsley)建議,最好的解決方案是清楚地宣傳這方面的危害和風險,“就像食品上的營養標簽”。“關鍵是要形成一個框架,知道經常出現的問題是什麼。這樣你就可以有一個安全閥。這也是為什麼我認為,這項工作將會永久性的持續下去。”


相關推薦

2023-01-16

究人員對該AI機器人的影響力有著巨大爭議。聊天機器人ChatGPT的所有者是一傢位於舊金山的軟件公司OpenAI,該公司於11月30日發佈這款AI工具,並提供免費試用。ChatGPT可以根據用戶的提示創建實際且智能的文本。它是一個“大型

2023-04-14

(ElonMusk)曾放言,人工智能(AI)比核武器還要危險。為降低ChatGPT的危險性,OpenAI建立一支“紅隊”。“紅隊”是AI領域的一個術語,指的是進行滲透測試的攻擊方。“紅隊”發起攻擊,AI進行防守,通過對抗測試來找出AI的不足,然

2024-04-12

找答案,走出矽谷,與不同背景和行業的人交談,以確保ChatGPT等產品能夠服務於更廣泛的群體,並以包容、公平的方式做到這一點。圖片來源:Arizona PBS網站視頻截圖阿爾特曼進一步討論人工智能偏見問題,他提到,早期的GPT版

2023-02-23

接受澎湃新聞等媒體采訪時,再次提到大熱的聊天機器人ChatGPT,並分享他心中ChatGPT的“三重人格”。ChatGPT熱潮正席卷全球。這款由“美國AI夢工廠”OpenAI制作的AI聊天機器人軟件,隻用兩個月時間,月活躍用戶達到1億,是史上

2023-03-29

潛在濫用也在漸漸暴露出來。隨著OpenAI推出的聊天機器人ChatGPT在全球大熱,他們的擔憂也越來越強烈。Alphabet 旗下 DeepMind 的前倫理和政策研究員、研究機構 Ada Lovelace Institute 副主任 Andrew Strait 向媒體表示:令人震驚的是,

2023-04-17

他們在消除系統中明顯毒性方面做得相當不錯。”自上線ChatGPT以來,OpenAI也受到多方批評,有技術道德組織向美國聯邦貿易委員會(FTC)投訴稱,GPT-4“有偏見、具有欺騙性,對隱私和公共安全構成威脅”。最近,OpenAI還推出名為C

2023-11-18

學傢Jim Fan稱,OpenAI內部已經實現AGI(通用人工智能),ChatGPT現在是CEO。OpenAI成立於2015年,起初是一傢專註於AI的非營利研究機構,但隨著微軟的入局,逐漸向營利轉型,並在2022年底憑借生成式語言大模型ChatGPT出圈,成為全球

2023-03-31

析問題。先說競爭失控問題。據公開信所稱,提出“暫停ChatGPT研發”的提議,直接刺激是對“最近幾個月人工智能實驗室陷入一場失控競賽”的擔憂。可實際上,短短幾日爭論,是往OpenAI公司和LLMs(Large Language Models,大語言模

2023-04-13

談節目中詳細回答他對人工智能的發展以及AI聊天機器人ChatGPT的看法。Le Cun認為,ChatGPT是一個很好的產品,但從科學發展的角度而言,這根本不是革命性的技術。Le Cun稱AI聊天機器人仍然“非常膚淺”,因為它的知識結構隻存在

2024-02-20

在文章中表示,從人工智能技術驅動的自然語言處理工具ChatGPT到如今的Sora,從自動生成文字、圖片,再到自動生成視頻,人們驚嘆人工智能突破性進展,同時也伴隨著質疑和擔憂,特別是背後的倫理挑戰。Sora生成的視頻可以以

2023-01-25

自從人工智能研究公司OpenAI於2022年11月發佈AI聊天機器人ChatGPT以來,後者在科技領域受到熱捧,但科技巨頭亞馬遜卻對其充滿警惕,甚至警告員工不要與ChatGPT分享機密信息。亞馬遜內部Slack頻道有許多員工關於如何使用ChatGPT的

2023-01-24

尼(GautamAdani)表示,他始終在嘗試OpenAI的AI聊天機器人ChatGPT,並承認有些上癮。阿達尼在參加2023年世界經濟論壇後發表的文章中寫道:“我必須承認,自從開始使用最近發佈的ChatGPT以來,我有點上癮。考慮到ChatGPT驚人的能力和

2023-11-13

能力和安全之間的抉擇。而在前不久,《華爾街日報》與OpenAI的CEO Sam Altman和CTO Mira Murati共同探討有關AGI的未來(鏈接)。一場又一場的AGI討論盛宴接連不斷,曾經隻存在於科幻作品中的AGI,似乎近在眼前。01 AGI的定義以及發生

2023-05-09

8日消息,360創始人周鴻禕近日在與俞敏洪的對話中談到ChatGPT,他認為其發展是指數級的,幾年後可能會失控。此前,據澎湃新聞報道,周鴻禕在采訪中還表示,ChatGPT可能在2-3年內就會產生自我意識威脅人類。他提到,任何行業