**劃重點:**
1. 🌐 生成式AI(GenAI)在創新應用中取得前所未有的成就,但也伴隨著虛假信息、偏見和安全風險。谷歌研究通過對抗性測試和紅隊行動,努力應對GenAI建設中的責任難題。
2. 🛠️ BRAIDS團隊致力於通過可擴展的工具、高質量數據和創新研究簡化RAI實踐的采用。他們通過對抗性數據生成、自動化測試集評估以及社區參與,識別和減輕GenAI產品的道德和安全風險。
3. 👥 解和緩解GenAI的安全風險不僅是技術挑戰,還涉及社會層面。通過多元的評估方法,包括對不同背景的評估者的研究,谷歌研究不斷努力確保GenAI的安全性和包容性,並通過社區參與發現潛在的未知風險。
站長之傢(ChinaZ.com) 11月17日 消息:谷歌研究團隊在人工智能領域持續推動著對生成式AI(GenAI)安全的研究,以應對其在虛假信息、偏見和安全性方面帶來的挑戰。作為谷歌研究的一部分,負責構建負責任的AI和數據系統的Responsible AI and Human-Centered Technology(RAI-HCT)團隊旨在通過文化感知研究的視角推進負責任的人本AI的理論和實踐,以滿足今天數十億用戶的需求,並為更好的AI未來鋪平道路。
在RAI-HCT團隊中,Building Responsible AI Data and Solutions(BRAIDS)團隊專註於通過可擴展的工具、高質量數據、簡化的流程以及創新研究簡化RAI實踐的采用,特別關註處理GenAI(生成式AI)帶來的獨特挑戰。GenAI模型帶來前所未有的能力,推動創新應用的迅速發展,然而,它同時也存在虛假信息、偏見和安全性的風險。
為解決這些風險,谷歌在2018年制定AI原則,強調有益使用和防范傷害。自那以後,谷歌通過全面的風險評估框架、內部治理結構、教育以及在AI產品生命周期內識別、衡量和分析倫理風險的工具和流程的開發,致力於有效實施這些原則。BRAIDS團隊專註於最後一個方面,通過創建工具和技術,幫助谷歌團隊識別GenAI產品中的倫理和安全風險,並采取適當的緩解措施。
GenAI的挑戰在於其前所未有的能力伴隨著一系列潛在的失敗,迫切需要在模型廣泛推出之前采取全面而系統的RAI方法來理解和減輕潛在的安全問題。對抗性測試是一種關鍵技術,通過系統地評估模型在提供惡意或無意中有害輸入的情況下的行為,以解潛在風險。
谷歌的研究側重於三個方向:擴展的對抗性數據生成、自動化測試集評估和社區參與。為創建測試集,BRAIDS團隊采用“人在回路中”的方法,以在不同情境下包含多樣化且潛在不安全的模型輸入。自動化測試集評估幫助快速評估模型在各種潛在有害情境下的響應,而社區參與則有助於發現“未知的未知”,並啟動數據生成過程。
在安全性評估中,人類判斷起著關鍵作用,但受到社區和文化的影響,難以自動化。為解決這一問題,團隊註重研究評估者的多樣性。他們還通過引入基於大型語言模型(LLMs)的自動評估者,提高評估的效率和規模,同時將復雜或模糊的案例交給專業評估者。
在社區參與方面,團隊積極與Equitable AI Research Round Table(EARR)等組織合作,確保他們代表使用他們模型的多元社區。Adversarial Nibbler Challenge則邀請外部用戶參與,解不安全、偏見或暴力輸出對最終用戶的潛在危害。他們還通過參與研究社區的活動,如在亞太計算語言學協會會議(IJCNLP-AACL2023)的The ART of Safety研討會中,與研究界合作解決GenAI的對抗性測試挑戰。
在評估GenAI安全風險時,團隊認識到這既是技術上的挑戰,也是社會上的挑戰。安全感知是固有主觀的,受到多種交叉因素的影響。他們進行關於評估者人口統計信息對安全感知的影響的深入研究,探討評估者的人口統計信息(如種族/種族、性別、年齡)和內容特征(如危害程度)對GenAI輸出的安全評估的交叉影響。他們的研究框架揭示不同背景的評估者之間的一系列分歧模式,為評估人類註釋和模型評估的質量提供新途徑。
GenAI帶來技術變革,即使不需要編碼也可以實現快速開發和定制。然而,這也伴隨著產生有害輸出的風險。谷歌的主動對抗性測試計劃旨在識別和減輕GenAI風險,確保其模型行為包容。對抗性測試和紅隊行動是安全策略的重要組成部分,全面進行它們對應對快速創新的要求,不斷挑戰自己,與內部夥伴、多元用戶社區以及其他行業專傢合作,發現“未知的未知”。