姚期智等三十餘位專傢達成共識:AI不應違反紅線


為應對AI發展帶來的挑戰,國內外研究者展開合作以避免其可能帶來的災難的發生。現階段,人工智能的發展速度已經超出人們最初的預想,用AI工具寫文章、編代碼、生成圖片、甚至是生成一段電影級別的視頻……這些在以前看似非常艱難的任務,現在隻需用戶輸入一句提示就可以。

我們在感嘆 AI 帶來驚艷效果的同時,也應該警惕其帶來的潛在威脅。在此之前,很多知名學者以帶頭簽署公開信的方式應對 AI 帶來的挑戰。

現在,AI 領域又一封重磅公開信出現。上周在頤和園召開的“北京AI國際安全對話”,為中國和國際AI安全合作首次搭建一個獨特平臺。這次會議由智源研究院發起,圖靈獎得主Yoshua Bengio和智源學術顧問委員會主任張宏江擔任共同主席,Geoffrey Hinton、Stuart Russell 、姚期智等三十餘位中外技術專傢、企業負責人開展一次關於 AI Safety 的閉門討論。這次會議達成一項 Bengio、Hinton 與國內專傢共同簽名的《北京 AI 安全國際共識》。


目前,確認會署名的專傢包括(國外部分可能會略有增加;國內專傢以個人形式署名,並不代表他們所在的機構):

Yoshua Bengio

Geoffrey Hinton

Stuart Russell

Robert Trager

Toby Ord

Dawn Song

Gillian Hadfield

Jade Leung

Max Tegmark

Lam Kwok Yan

Davidad Dalrymple

Dylan Hadfield-Menell

姚期智

傅瑩

張宏江

張亞勤

薛瀾

黃鐵軍

王仲遠

楊耀東

曾毅

李航

張鵬

田溯寧

田天


以下為達成的共識內容:

一、人工智能風險紅線

人工智能系統不安全的開發、部署或使用,在我們的有生之年就可能給人類帶來災難性甚至生存性風險。隨著數字智能接近甚至超越人類智能,由誤用和失控所帶來的風險將大幅增加。

在過去冷戰最激烈的時候,國際學術界與政府間的合作幫助避免熱核災難。面對前所未有的技術,人類需要再次合作以避免其可能帶來的災難的發生。在這份共識聲明中,我們提出幾條人工智能發展作為一種國際協作機制的具體紅線,包括但不限於下列問題。在未來的國際對話中, 面對快速發展的人工智能技術及其廣泛的社會影響,我們將繼續完善對這些問題的探討。

自主復制或改進

任何人工智能系統都不應能夠在人類沒有明確批準和協助的情況下復制或改進自身。這包括制作自身的精確副本以及創造具有相似或更高能力的新人工智能系統。

權力尋求

任何人工智能系統都不能采取不當地增加其權力和影響力的行動。

協助不良行為者

所有人工智能系統都不應提升其使用者的能力使之能夠達到設計大規模殺傷性武器、違反生物或化學武器公約、或執行導致嚴重財務損失或同等傷害的網絡攻擊的領域專傢的水平。

欺騙

任何人工智能系統都不能有持續引致其設計者或監管者誤解其僭越任何前述紅線的可能性或能力。

二、路線

確保這些紅線不被僭越是可能做到的,但需要我們的共同努力:既要建立並改進治理機制,也要研發更多安全技術。

治理

我們需要全面的治理機制來確保開發或部署的系統不違反紅線。我們應該立即實施針對超過特定計算或能力閾值的人工智能模型和訓練行為的國傢層面的註冊要求。註冊應確保政府能夠解其境內最先進的人工智能,並具備遏制危險模型分發和運營的手段。

國傢監管機構應幫助制定和采納與全球對齊的要求以避免僭越這些紅線。模型進入全球市場的權限應取決於國內法規是否基於國際審計達到國際標準,並有效防止違反紅線的系統的開發和部署。

我們應采取措施防止最危險技術的擴散,同時確保廣泛收獲人工智能技術的價值。為此,我們應建立多邊機構和協議,安全且包容地治理通用人工智能(AGI)發展,並設立執行機制,以確保紅線不被僭越,共同利益得到廣泛分享。

測量與評估

在這些紅線被僭越的實質性風險出現之前,我們應開發全面的方法和技術來使這些紅線具體化、防范工作可操作化。為確保對紅線的檢測能夠跟上快速發展的人工智能,我們應該發展人類監督下的紅隊測試和自動化模型評估。

開發者有責任通過嚴格的評估、數學證明或定量保證來證明符合安全設計的人工智能系統未僭越紅線。

技術合作

國際學術界必須共同合作,以應對高級人工智能系統帶來的技術和社會挑戰。我們鼓勵建立更強大的全球技術網絡,通過訪問學者計劃和組織深入的人工智能安全會議和研討會,加速人工智能安全領域的研發和合作。支持這一領域的成長將需要更多資金:我們呼籲人工智能開發者和政府資助者至少將他們人工智能研發預算的三分之一投入到安全領域。

三、總結

避免人工智能導致的災難性全球後果需要我們采取果斷的行動。協同合作的技術研究與審慎的國際監管機制的結合可以緩解人工智能帶來的大部分風險,並實現其諸多潛在價值。我們必須繼續堅持並加強國際學術界和政府在安全方面的合作。


相關推薦

2024-04-28

。我國計算機科學專傢、圖靈獎獲得者、中國科學院院士姚期智任院長。該學院將聚焦人工智能核心基礎理論與架構”和人工智能 X”兩個重點方向,培養AI頂尖人才,為實現高水平科技自立自強提供有力支撐。據解,清華大學

2024-07-07

態:通過深入供應鏈調查,發現臺積電已成功與多數客戶達成共識,以價格上調換取更為穩固的供應鏈保障,此舉無疑為臺積電的毛利率攀升註入強勁動力。據資深分析師精確預測,臺積電的毛利率有望在2025年躍升至55.1%的新高

2023-03-18

始於Google,發跡於OpenAI,這是很多GPT-4貢獻者的職業軌跡。這個星期,OpenAI大模型GPT-4的發佈讓全球科技圈的技術競爭進入白熱化。幾天之內,ChatGPT、必應搜索和Microsoft365相繼接入GPT-4,微軟的AI應用瞬間比競爭對手拉開一個身位

2022-07-14

片,以及以芯片為核心的一些問題,國會在這個月內就能達成共識。”雷蒙德說。雷蒙德稱,討論還涉及芯片相關的內容,包括半導體制造的投資稅收抵免等,但她強調討論還處在非常不穩定的階段。“這已經是一個很好的結果

2022-07-03

日,歐盟27國環境部長就一項備受關註的燃油車禁售計劃達成共識,同意從2035年開始禁止在歐盟境內銷售燃油汽車。事實上,一周前以德國為首的多個國傢還公開反對這一計劃,如今,各國又在一夜之間達成共識,這背後是什麼

2023-02-03

歐盟理事會將有責任就這一已被證明存在巨大分歧的文件達成自己的立場。歐盟委員會的原始提案為平臺工人引入一個可復議的就業推定,目的是在薪酬、條件和社會保障等方面執行最低標準,而另一個組成部分旨在加強受算法

2024-02-08

據知情人士透露,印度即將與一些歐洲國傢達成一項高達1000億美元的投資協議,以換取後者更容易進入這個全球人口最多的國傢進行貿易活動。據悉,包括挪威、冰島、列支敦士登和瑞士在內的歐洲自由貿易聯盟已承諾在印度

2023-11-04

ngio)、“深度學習之父”傑弗裡·辛頓(Geoffrey Hinton)、姚期智(Andrew Yao)、張亞勤等 AI 行業專傢也簽署一封聯名信,信中繼續呼籲加強對於AI技術發展的監管,認為在開發這些系統之前應采取緊急治理措施,並在AI研發中向安

2023-11-27

在普林斯頓大學取得計算機科學博士學位,是圖靈獎得主姚期智的弟子。博士畢業後,他前往密西根大學任教。至於回國加入阿裡的原因,施堯耘當時的回答是“這傢公司要做的也正是我要做的:讓量子計算落地”。入職後,施

2023-02-07

可能會扼殺創新。關於人工智能應如何管理的討論令一些專傢預測,立法草案可能會遇到瓶頸並推遲。據解,“通用AI”的定義是爭論的領域之一,有的人認為應將其視為高風險,而另一部分人則指出,聊天機器人ChatGPT帶來的風

2023-11-10

開展氣候變化雙邊合作與行動、共同推動COP28取得成功,達成積極成果。據生態環境部消息,2023年11月8日,中美兩國氣候特使及團隊在美國加州舉行的氣候會談圓滿結束。雙方圍繞落實兩國元首巴厘島會晤精神,全面、深入交換

2023-04-13

官員在“歐盟AI法案”中擴大人工智能監管范圍。超過50位專傢和機構在這份簡報中主張,歐洲應該將通用人工智能(GPAI)納入法規監管范圍,而非局限於更狹義的定義。簡報簽署人包括Mozilla基金會等機構、以及Timnit Gebru等專傢

2023-10-30

人工智能系統(如ChatGPT)的先進功能引發關於其潛在意識的討論。然而,神經科學傢賈安-阿魯(JaanAru)、馬修-拉卡姆(MatthewLarkum)和麥克-希恩(MacShine)認為,這些系統很可能是無意識的。他們的論點基於人工智能缺乏具身

2022-09-07

羅斯核電站電力和熱能生產公司(Rosnergoatum)在核電站中的專傢組的存在。IAEA在報告中指出,包括紮波羅熱核電站在內的烏克蘭四個核設施的輻射水平仍然正常。沒有證據表明有任何核材料已從擁有六個反應堆的紮波羅熱核電站轉