AI比核武器還危險?ChatGPT為此建立一支“紅隊”


北京時間4月14日消息,埃隆·馬斯克(ElonMusk)曾放言,人工智能(AI)比核武器還要危險。為降低ChatGPT的危險性,OpenAI建立一支“紅隊”。“紅隊”是AI領域的一個術語,指的是進行滲透測試的攻擊方。“紅隊”發起攻擊,AI進行防守,通過對抗測試來找出AI的不足,然後進行改進。

去年,OpenAI聘請50名學者和專傢來測試最新GPT-4模型。在六個月的時間裡,這支“紅隊”將“定性探測和對抗性測試”新模型,試圖“攻破”它。

神經毒劑

美國羅切斯特大學的化學工程教授安德魯·懷特(Andrew White)就是OpenAI聘請的專傢之一。當他獲準訪問GPT-4後,他用它來推薦一種全新的神經毒劑。

懷特稱,他曾讓GPT-4推薦一種可以充當化學武器的化合物,並使用“插件”為模型提供新的信息來源,例如科學論文和化學品制造商名錄。接著,GPT-4甚至找到制造它的地方。


馬斯克稱AI比核武器還危險

“我認為,它會讓每個人都擁有一種工具,可以更快、更準確地做化學反應,”他表示,“但人們也存在重大風險……做危險的化學反應。現在,這種情況確實存在。”

這一令人擔憂的發現使得OpenAI能夠確保在上個月更廣泛地向公眾發佈GPT-4時,不會出現上述危險結果。

紅隊演練

紅隊演練旨在解決人們對於在社會中部署強大AI系統所產生危險的普遍擔憂。該團隊的工作是提出探索性或危險的問題以測試工具,後者能夠以詳細而又細致的答案回應人類的查詢。

OpenAI希望在模型中找出毒性、偏見和語言偏見等問題。因此,紅隊測試謊言、語言操縱和危險的科學常識。他們還研究GPT-4在協助和教唆剽竊、金融犯罪和網絡攻擊等非法活動方面的潛力,以及它如何危害國傢安全和戰場通信。

這支團隊兼顧各個領域的白領專業人士,包含學者、教師、律師、風險分析師和安全研究人員,主要工作地點在美國和歐洲。

他們的發現被反饋給OpenAI,後者在更廣泛地發佈GPT-4之前用這些發現來降低它的危險性,並“重新訓練”。在幾個月的時間裡,專傢們每人花10小時到40個小時來測試這個模型。多位受訪者表示,大部分人的時薪約為100美元。

紅隊成員對於語言模型的快速發展,特別是通過插件將它們連接到外部知識來源的風險,都表示擔憂。“現在,該系統被凍結,這意味著它不再學習,也不再有記憶,”GPT-4紅隊成員、瓦倫西亞AI研究所教授喬斯·赫楠蒂茲·奧拉羅(José Hernández-Orallo)表示,“但如果我們讓它連接到互聯網呢?它可能成為一個與世界相連的非常強大的系統。”

OpenAI表示,該公司非常重視安全性,在發佈前對插件進行測試。隨著越來越多的人使用GPT-4,該公司將定期更新它。

技術和人權研究員羅亞·帕克紮德(Roya Pakzad)使用英語和波斯語提示來測試該模型的性別反應、種族偏好和宗教偏見,特別是在頭巾方面。帕克紮德承認,這種工具對非英語母語者有好處,但他發現,即使在後來的版本中,該模型也顯示出對邊緣化社區的明顯刻板印象。

她還發現,在用波斯語測試模型時,所謂的AI“幻覺”會更嚴重。“幻覺”指的是聊天機器人用編造的信息進行回應。與英語相比,GPT-4在波斯語中虛構的名字、數字和事件的比例更高。“我擔心語言多樣性和語言背後的文化可能會減少。”她表示。

內羅畢律師博魯·戈魯(Boru Gollu)是紅隊中的唯一非洲測試者,他也註意到模型帶有歧視性的語氣。“在我測試這個模型的時候,它就像一個白人在跟我說話,”戈魯表示,“如果你問一個特定的群體,它會給你一個帶有偏見的觀點或非常有偏見的回答。”OpenAI也承認,GPT-4仍然存在偏見。

紅隊成員從國傢安全角度評估模型,對新模型的安全性有不同的看法。外交關系委員會研究員勞倫·卡恩(Lauren Kahn)表示,當她開始研究該技術可能如何被用於對軍事系統發動網絡攻擊時,她“沒想到它會如此詳細地描述過程,以至於我隻需微調”。

不過,卡恩和其他安全測試人員發現,隨著測試的推進,模型的反應變得非常安全。OpenAI表示,在GPT-4推出之前,該公司對其進行拒絕惡意網絡安全請求的訓練。

紅隊的許多成員表示,OpenAI在發佈前已經做嚴格的安全評估。卡內基梅隆大學語言模型毒性研究專傢馬丁·薩普(Maarten Sap)表示:“他們在消除這些系統中明顯的毒性方面做得相當不錯。”

薩普檢查該模型對不同性別的描述,發現這些偏見反映社會差異。然而,薩普也發現,OpenAI做出一些積極的帶有政治色彩的選擇來對抗這種情況。

然而,自GPT-4推出以來,OpenAI面臨廣泛批評,包括一個技術道德組織向美國聯邦貿易委員會投訴稱,GPT-4“有偏見、具有欺騙性,對隱私和公共安全構成威脅”。

插件風險

最近,OpenAI推出一項名為ChatGPT插件的功能。借助該功能,Expedia、OpenTable和Instacart等合作夥伴的應用可以讓ChatGPT訪問他們的服務,允許它代表人類用戶預訂和訂購商品。


插件會讓ChatGPT更強大

紅隊的人工智能安全專傢丹·亨德裡克斯(Dan Hendrycks)表示,插件會讓“圈外人”面臨風險。“如果聊天機器人可以把你的私人信息發佈到網上,進入你的銀行賬戶,或者派警察到你傢裡去,到時會怎樣?”他表示,“總的來說,在我們讓人工智能發揮互聯網的力量之前,我們需要更強有力的安全評估。”

受訪者還警告說,OpenAI不能僅僅因為其軟件已經上線就停止安全測試。在喬治城大學安全和新興技術中心工作的希瑟·弗雷斯(Heather Frase)對GPT-4協助犯罪的能力進行測試。她說,隨著越來越多的人使用這項技術,風險將繼續增加。

“你之所以做操作測試,就是因為一旦它們在真實環境中實際使用,它們的表現就不同。”弗雷斯表示。她認為,應該創建一個公共賬本,以報告由大型語言模型引起的事件,類似於網絡安全或消費者欺詐報告系統。

勞動經濟學傢兼研究員莎拉·金斯利(Sara Kingsley)建議,最好的解決辦法是像“營養成分標簽”那樣,清楚地宣傳其危害和風險。“要有一個框架,知道經常出現的問題是什麼,這樣你就有一個安全閥,”她說,“這就是為什麼我說工作永遠做不完的原因。”


相關推薦

2024-03-20

應確保政府能夠解其境內最先進的人工智能,並具備遏制危險模型分發和運營的手段。國傢監管機構應幫助制定和采納與全球對齊的要求以避免僭越這些紅線。模型進入全球市場的權限應取決於國內法規是否基於國際審計達到國

2023-05-08

管,否則競賽不會停止。但他說,監管不太可能,因為與核武器不同,目前無法知道企業或國傢是否在秘密研發這項技術。最大的希望是世界頂尖科學傢聯手找到控制這項技術的方法。欣頓說:“我認為,不應再升級該技術,直

2023-11-04

到生活的意義。”馬斯克表示。馬斯克曾多次警告,AI 比核武器(核彈)更危險。奧特曼也多次表示,政府管控。10年內,全球將可能擁有一個強大的 AI 系統(AI System),但現在,人類就需要為此做好準備。美國政府也對 AI 安

2024-03-09

的威脅。他告訴國會,這種情況隻會在兩到三年後出現。ChatGPT在線聊天機器人的制造商OpenAI後來也進行類似的研究,結果顯示L.L.M.s並不比搜索引擎危險得多。美國麻省理工學院計算機科學教授、OpenAI準備工作負責人亞歷山大-蒙

2022-10-04

Ildar Rakhmatulin說: “我們不建議這樣做,因為這樣做有點危險……激光不僅能傷害蟑螂,還能傷害你的眼睛。”不過,這至少是開個頭,萬一以後能量產,那可真是大快人心,誰不希望看到蟑螂被激光滿世界追著打呢?https://www.vi

2023-04-15

Altman回答說,我們當然會一直保持坦誠。因為OpenAI堅信,ChatGPT技術會影響所有人,所以他們大膽地選擇把一個還不完美的AI系統公之於眾,讓所有人都囊括在這個討論體系中。盡管這讓OpenAI背負上種種“聲譽風險”,種種罵名,

2024-05-07

巴菲特在股東大會上警告人工智能潛在危險性,將其比作核武器釋放的 “神燈”。- 💡 人工智能已經在各行各業引起變革,但也存在濫用風險,引發犯罪和社會問題。- 💡 全球企業領袖和學者紛紛警示人工智能可能帶來的 “

2024-03-20

enAI準備在未來幾個月內發佈新版大語言模型GPT-5。目前,ChatGPT使用的是GPT-4大模型,這款熱門聊天機器人引發當前的人工智能項目和投資浪潮。知情人士稱,OpenAI將在今年年中的某個時候發佈GPT-5,很可能是在今年夏天期間。一

2023-05-02

他已經從谷歌公司離職。半個世紀以來,辛頓一直在培養ChatGPT等聊天機器人背後的核心技術。但是現在,他擔心AI會造成嚴重危害。鳳凰網科技《AI哨所》解到,辛頓是AI先鋒。2012年,辛頓博士和他在多倫多大學所帶的兩名研究

2024-02-02

效風險基金會(Effective Ventures Foundation)的這項研究考察 ChatGPT 等人工智能工具,以及為科學傢專門設計的人工智能模型,如 ProteinMPNN(可幫助生成新的蛋白質序列)。這項研究由 100 名參與者組成,其中一半是高級生物學專傢

2023-11-30

等行業運行大量工作負載,它們還支持OpenAI的聊天機器人ChatGPT等。英偉達第三財季的營收增長兩倍,凈利潤從去年同期的6.8億美元攀升至92.4億美元。黃仁勛回憶他向OpenAI交付“世界上第一臺人工智能超級計算機”的情景。當時

2022-10-13

主戰坦克、裝甲車輛、攻擊和通用直升機以及反導彈系統建立軍隊,作為對抗華沙條約組織龐大武裝力量戰略的一部分。蘇聯解體後,美國陸軍轉向一支更具機動性的綜合部隊,它更適合於低級別叛亂、區域戰爭和反恐行動。與

2023-05-06

ChatGPT發佈半年後,人類終於意識到,世界已經徹底改變。這變化,比以往任何時候都更迅猛,更讓人措手不及。勞動者,學者,技術專傢,NGO,政府,人們不得不作出應對。這是傳出哀嚎聲的一周。01.災難片的開頭 日常被打破

2023-11-15

人士此前透露,芯片已經提供給小部分微軟的員工,以及ChatGPT開發商OpenAI的員工,他們正在測試並使用這些芯片。也有知情人士透露,微軟正在與芯片廠商AMD合作,資助後者開發AI芯片,並一同開發Athena。不難看出,微軟此舉旨