​ 谷歌研究:通過對抗性數據生成和多元評估應對GenAI的道德和安全風險


**劃重點:**

1. 🌐 生成式AI(GenAI)在創新應用中取得前所未有的成就,但也伴隨著虛假信息、偏見和安全風險。谷歌研究通過對抗性測試和紅隊行動,努力應對GenAI建設中的責任難題。

2. 🛠️ BRAIDS團隊致力於通過可擴展的工具、高質量數據和創新研究簡化RAI實踐的采用。他們通過對抗性數據生成、自動化測試集評估以及社區參與,識別和減輕GenAI產品的道德和安全風險。

3. 👥 解和緩解GenAI的安全風險不僅是技術挑戰,還涉及社會層面。通過多元的評估方法,包括對不同背景的評估者的研究,谷歌研究不斷努力確保GenAI的安全性和包容性,並通過社區參與發現潛在的未知風險。

站長之傢(ChinaZ.com) 11月17日 消息:谷歌研究團隊在人工智能領域持續推動著對生成式AI(GenAI)安全的研究,以應對其在虛假信息、偏見和安全性方面帶來的挑戰。作為谷歌研究的一部分,負責構建負責任的AI和數據系統的Responsible AI and Human-Centered Technology(RAI-HCT)團隊旨在通過文化感知研究的視角推進負責任的人本AI的理論和實踐,以滿足今天數十億用戶的需求,並為更好的AI未來鋪平道路。

在RAI-HCT團隊中,Building Responsible AI Data and Solutions(BRAIDS)團隊專註於通過可擴展的工具、高質量數據、簡化的流程以及創新研究簡化RAI實踐的采用,特別關註處理GenAI(生成式AI)帶來的獨特挑戰。GenAI模型帶來前所未有的能力,推動創新應用的迅速發展,然而,它同時也存在虛假信息、偏見和安全性的風險。

為解決這些風險,谷歌在2018年制定AI原則,強調有益使用和防范傷害。自那以後,谷歌通過全面的風險評估框架、內部治理結構、教育以及在AI產品生命周期內識別、衡量和分析倫理風險的工具和流程的開發,致力於有效實施這些原則。BRAIDS團隊專註於最後一個方面,通過創建工具和技術,幫助谷歌團隊識別GenAI產品中的倫理和安全風險,並采取適當的緩解措施。

GenAI的挑戰在於其前所未有的能力伴隨著一系列潛在的失敗,迫切需要在模型廣泛推出之前采取全面而系統的RAI方法來理解和減輕潛在的安全問題。對抗性測試是一種關鍵技術,通過系統地評估模型在提供惡意或無意中有害輸入的情況下的行為,以解潛在風險。

谷歌的研究側重於三個方向:擴展的對抗性數據生成、自動化測試集評估和社區參與。為創建測試集,BRAIDS團隊采用“人在回路中”的方法,以在不同情境下包含多樣化且潛在不安全的模型輸入。自動化測試集評估幫助快速評估模型在各種潛在有害情境下的響應,而社區參與則有助於發現“未知的未知”,並啟動數據生成過程。

在安全性評估中,人類判斷起著關鍵作用,但受到社區和文化的影響,難以自動化。為解決這一問題,團隊註重研究評估者的多樣性。他們還通過引入基於大型語言模型(LLMs)的自動評估者,提高評估的效率和規模,同時將復雜或模糊的案例交給專業評估者。

在社區參與方面,團隊積極與Equitable AI Research Round Table(EARR)等組織合作,確保他們代表使用他們模型的多元社區。Adversarial Nibbler Challenge則邀請外部用戶參與,解不安全、偏見或暴力輸出對最終用戶的潛在危害。他們還通過參與研究社區的活動,如在亞太計算語言學協會會議(IJCNLP-AACL2023)的The ART of Safety研討會中,與研究界合作解決GenAI的對抗性測試挑戰。

在評估GenAI安全風險時,團隊認識到這既是技術上的挑戰,也是社會上的挑戰。安全感知是固有主觀的,受到多種交叉因素的影響。他們進行關於評估者人口統計信息對安全感知的影響的深入研究,探討評估者的人口統計信息(如種族/種族、性別、年齡)和內容特征(如危害程度)對GenAI輸出的安全評估的交叉影響。他們的研究框架揭示不同背景的評估者之間的一系列分歧模式,為評估人類註釋和模型評估的質量提供新途徑。

GenAI帶來技術變革,即使不需要編碼也可以實現快速開發和定制。然而,這也伴隨著產生有害輸出的風險。谷歌的主動對抗性測試計劃旨在識別和減輕GenAI風險,確保其模型行為包容。對抗性測試和紅隊行動是安全策略的重要組成部分,全面進行它們對應對快速創新的要求,不斷挑戰自己,與內部夥伴、多元用戶社區以及其他行業專傢合作,發現“未知的未知”。


相關推薦

2024-05-12

英國安全研究所(U.K.SafetyInstitute)是英國最近成立的人工智能安全機構,該機構發佈一個工具集,旨在"加強人工智能安全",使工業界、研究機構和學術界更容易開展人工智能評估。該工具集名為Inspect,采用

2024-04-30

公司和廣大公眾開發和測試技術的機構--國傢標準與技術研究院(NIST)周一宣佈啟動NISTGenAI,這是一個由NIST牽頭的新項目,旨在評估生成式人工智能技術,包括文本和圖像生成人工智能。NIST 在新推出的 NIST GenAI網站和一份新聞

2024-03-15

則賦予委員會針對特定"風險情況"的權力;其次是通過《反虛假信息行為準則》(無法律約束力)與平臺合作五年多的經驗,歐盟打算將該準則變為 DSA 下的《行為準則》;最後是即將出臺的《人工智能法》下的透明度標

2024-03-05

意行為者提供新的攻擊載體。ComPromptMized 公司的信息安全研究人員最近發表一篇論文,展示他們如何創建"零點擊"蠕蟲,從而"毒害"由 Gemini (Bard) 或 GPT-4 (Bing/Copilot/ChatGPT) 等引擎驅動的 LLM 生態系統。蠕蟲病毒是一

2023-05-11

傳統基準測試並不能準確表示人類的能力。最近,微軟的研究人員發佈一個全新基準AGIEval,專門用於評估基礎模型在“以人為本”(human-centric)的標準化考試中,如高考、公務員考試、法學院入學考試、數學競賽和律師資格考

2023-04-17

團隊測試謊言、語言操縱和危險科學常識等問題。他們還研究新模型在協助和教唆剽竊、金融犯罪和網絡攻擊等非法活動方面的可能性。GPT-4“藍軍”團隊來自各行各業,有學者、教師、律師、風險分析師和安全研究人員,主要

2023-01-29

1月29日消息,谷歌、Facebook和微軟幫助構建人工智能的框架,但規模較小的初創公司正在將其推向大眾,這迫使科技巨頭們加快AI開發速度。據消息人士透露,由於圍繞ChatGPT的關註激增,Meta和谷歌內部壓力也在增大,甚至可能為

2023-03-15

是用英語編寫的。為初步解 GPT-4 在其他語言上的能力,研究團隊使用 Azure Translate 將 MMLU 基準 —— 一套涵蓋 57 個主題的 14000 個多項選擇題 —— 翻譯成多種語言。在測試的 26 種語言的 24 種中,GPT-4 優於 GPT-3.5 和其他大 語言模

2023-04-14

此,紅隊測試謊言、語言操縱和危險的科學常識。他們還研究GPT-4在協助和教唆剽竊、金融犯罪和網絡攻擊等非法活動方面的潛力,以及它如何危害國傢安全和戰場通信。這支團隊兼顧各個領域的白領專業人士,包含學者、教師

2024-04-24

們對其可能被敵對分子和團體用來威脅兒童安全的擔憂。谷歌、Meta、OpenAI、微軟和亞馬遜等科技公司今天承諾,將對其人工智能訓練數據中的兒童性虐待材料(CSAM)進行審查,並在今後的模型中不再使用這些數據。這些公司簽

2024-02-27

一聲炸雷深夜炸響,谷歌居然也開源LLM?!這次,重磅開源的Gemma有2B和7B兩種規模,並且采用與Gemini相同的研究和技術構建。有Gemini同源技術的加持,Gemma不僅在相同的規模下實現SOTA的性能。而且更令人印象深刻的是,還能在關

2024-02-08

在活動傢和傢長的監督下,OpenAI組建一個新團隊,研究如何防止其人工智能工具被兒童誤用或濫用。OpenAI在其職業頁面上發佈一條新的招聘信息,披露一個兒童安全團隊的存在,該團隊與OpenAI內部的平臺政策、法律和調查小組以

2023-11-14

來繼續保持這種努力。最近,在歷史悠久的托馬斯-J-沃森研究中心(ThomasJ.WatsonResearchCenter)舉行的分析師日上,IBM提出令人信服的論據,證明他們有能力完成任務,尤其是在人工智能和量子計算領域。最引人註目的是,IBM 展示

2023-05-06

智能(AI)可能是對人類“更緊迫”的威脅。現年75歲的谷歌科學傢辛頓在神經網絡領域長期從事開創性工作,為人工智能技術的發展奠定基礎。不過近日有媒體報道,辛頓已從谷歌離職。辛頓此前也證實,他之所以離開谷歌,