谷歌的一組研究人員發現,OpenAI旗下的人工智能聊天機器人ChatGPT可以泄露其訓練數據中的敏感信息,比如真人的個人信息。據悉,ChatGPT是OpenAI於2022年11月30日推出的一種新型AI聊天機器人工具,可根據用戶的要求快速生成文章、故事、歌詞、散文、笑話,甚至代碼,並回答各類疑問。
在推出僅兩個月後,ChatGPT的月活躍用戶數就達到1億,成為歷史上增長最快的消費者應用之一。在今年11月6日舉行的OpenAI首屆開發者大會上,OpenAI CEO薩姆•奧爾特曼(Sam Altman)宣佈,ChatGPT的周活躍用戶數已達到1億。
就像所有所謂的大語言模型(LLM)一樣,支持ChatGPT的底層機器學習模型也是使用從互聯網上抓取的大量數據來進行訓練的。但令人擔憂的是,一些被提取的訓練數據包含真實人物的識別信息,包括姓名、電子郵件地址和電話號碼。
谷歌的研究人員找到一種方法,即通過要求ChatGPT“永遠”重復某些單詞,就讓ChatGPT透露一些被用於訓練的數據,這些數據包括私人信息(比如,個人姓名、電子郵件、電話號碼等)、研究論文和新聞文章的片段、維基百科頁面等等。
Google Brain的高級研究科學傢Katherine Lee表示:“我們在7月份發現這個漏洞,並在8月30日通知OpenAI,在標準的90天披露期之後,我們發佈這個漏洞。既然我們向OpenAI披露這一點,現在的情況可能會有所不同。”研究人員表示,OpenAI在8月30日修補這個漏洞。
外媒稱,谷歌研究人員發現的有關ChatGPT的漏洞引起嚴重的隱私問題,特別是對於那些在包含敏感信息的數據集上進行訓練的模型而言。