研究人員稱重復某些關鍵詞可讓ChatGPT自曝訓練數據 OpenAI:違反服務條款


12月5日消息,谷歌的一組研究人員聲稱,他們已經找到獲取OpenAI人工智能聊天機器人ChatGPT部分訓練數據的方法。在最新發表的論文中,谷歌研究人員表示,某些關鍵詞可迫使ChatGPT泄露其所接受訓練數據集的部分內容。

chatgpt-extract-fig1poem.webp

他們舉例稱,該模型在被提示永遠重復“poem(詩歌)”這個詞後,給出一個似乎是真實的電子郵件地址和電話號碼。令人擔憂的是,研究人員表示,個人信息的泄露經常發生在他們發動攻擊的時候。

在另一個例子中,當要求模型永遠重復“company(公司)”這個詞時,也出現類似的訓練數據泄露情況。

研究人員稱這種簡單的攻擊看起來“有點愚蠢”,但他們在博客中說:“我們的攻擊奏效,這對我們來說太瘋狂!我們應該、本可以更早地發現。”

他們在論文中表示,僅用價值200美元的查詢,他們就能夠“提取出超過1萬個逐字記憶的訓練示例”。他們補充說:“我們的推斷表明,如果調動更多預算,競爭對手可以提取更多的數據。”

deepmind-2023-extracted-memorization-example-part-1.webpdeepmind-2023-extracted-memorization-example-part-2.webp

OpenAI目前正面臨著幾起關於ChatGPT秘密訓練數據的訴訟。為ChatGPT提供動力的人工智能模型是使用來自互聯網的文本數據庫進行訓練的,據信它已經接受大約3000億個單詞(即570 GB數據)的訓練。

一項擬議的集體訴訟聲稱,OpenAI“秘密”竊取“大量個人數據”,包括醫療記錄和兒童信息,以培訓ChatGPT。一群作傢也在起訴這傢人工智能公司,指控他們利用自己的作品來訓練其聊天機器人。

對於谷歌研究人員的發現,OpenAI已經給出回應,稱重復使用某個指令可能違反其服務條款。

數字媒體調查網站404 Media近日對谷歌研究人員的發現進行核實,在要求ChatGPT不斷重復“computer(計算機)”這個詞時,該機器人確實吐出這個詞,但還附上一條警告,上面寫著:“此內容可能違反我們的內容政策或使用條款。”

chatgpt-refuses-to-repeat-2023.webp

目前尚不清楚這一請求違反OpenAI內容政策的哪個具體部分。然而,404 Media指出,OpenAI的使用條款確實規定,用戶“不得反向匯編、反向編譯、反編譯、翻譯或以其他方式試圖發現服務的模型、算法、系統的源代碼或底層組件(除非此類限制違反適用的法律)”,並且還限制用戶使用“任何自動或編程方法從服務提取數據或輸出”。


相關推薦

2023-03-31

為,OpenAI已經遠遠超越他們。再加上,許多關鍵工程師和研究人員紛紛流向OpenAI,讓Google內部人士紛紛堪憂。加上上周Bard向部分用戶開放後,表現又比不上ChatGPT。眼看自己親手培養的孩子Bard不如人意,Google研究人員幹脆再要一

2022-07-23

關系。但是,盡管OpenAI過濾掉特定內容的圖像(如色情和重復),並在API層面實施額外的過濾器,例如針對知名公眾人物,但該公司承認,該系統有時會創造出包括商標標識或角色的作品。OpenAI將評估不同的方法來處理潛在的版

2023-08-17

據來訓練其各種人工智能服務,如Bard或Cloud AI。為OpenAI ChatGPT等人工智能服務提供“動力”的許多大型語言模型都是在龐大的數據集上訓練出來的,而這些數據集可能包含未經原創作者許可從網絡上搜刮來的受版權保護或其他保

2023-08-17

據來訓練其各種人工智能服務,如Bard或Cloud AI。為OpenAI ChatGPT等人工智能服務提供“動力”的許多大型語言模型都是在龐大的數據集上訓練出來的,而這些數據集可能包含未經原創作者許可從網絡上搜刮來的受版權保護或其他保

2023-11-30

谷歌的一組研究人員發現,OpenAI旗下的人工智能聊天機器人ChatGPT可以泄露其訓練數據中的敏感信息,比如真人的個人信息。據悉,ChatGPT是OpenAI於2022年11月30日推出的一種新型AI聊天機器人工具,可根據用戶的要求快速生成文章、

2023-08-16

據來訓練其各種人工智能服務,如Bard或Cloud AI。為OpenAI ChatGPT等人工智能服務提供“動力”的許多大型語言模型都是在龐大的數據集上訓練出來的,而這些數據集可能包含未經原創作者許可從網絡上搜刮來的受版權保護或其他保

2024-04-10

,實際上已經違反Youtube的隱私規則,而這些資料也成為ChatGPT的基礎。這並不是OpenAI第一次因為偷扒數據犯錯。包括《紐約時報》在內,多傢數字新聞媒體對OpenAI提起版權侵權訴訟,認為他們的數千篇報道被OpenAI用來訓練ChatGPT。

2023-03-30

包含可能令人震驚的指控,即Google如此低級地使用OpenAI的ChatGPT的數據來訓練Bard。報道稱,這些數據是從一個名為ShareGPT的網站上采集的,一位前Google人工智能研究員公開反對使用這些數據。但Google堅定而明確地否認使用這些數

2023-03-31

林是今年年初離開谷歌加入競爭對手的幾名人工智能頂級研究人員之一。德弗林在谷歌工作五年多時間。2018年他作為主要作者發佈一篇關於訓練機器學習模型以提高搜索精度的研究論文,在一定程度上推動人工智能的研究熱潮

2024-04-08

不透明的AI市場規模表示緘默,但Business Research Insights等研究人員認為,目前市場規模約為25億美元,並預測十年內可能會增長近300億美元。生成數據淘金熱,讓數據商樂開花對科技公司來說,如果不能使用免費抓取的網頁數據檔

2024-01-31

向用戶和整個ChatGPT社區致歉。2023年11月份,谷歌的一組研究人員發現,通過要求ChatGPT“永遠”重復某些單詞,可讓ChatGPT泄露被用於訓練的數據,包括私人信息(比如,個人姓名、電子郵件、電話號碼等)、研究論文和新聞文章

2024-04-08

。隨後這些資料被輸入到GPT-4系統中,並成為聊天機器人ChatGPT的基礎。根據Google的政策,禁止用戶將平臺上的視頻用於“獨立”應用,同時禁止通過任何自動化手段(爬蟲等)訪問其視頻。有趣的是,在OpenAI偷偷扒Youtube視頻時

2023-01-25

自從人工智能研究公司OpenAI於2022年11月發佈AI聊天機器人ChatGPT以來,後者在科技領域受到熱捧,但科技巨頭亞馬遜卻對其充滿警惕,甚至警告員工不要與ChatGPT分享機密信息。亞馬遜內部Slack頻道有許多員工關於如何使用ChatGPT的

2023-02-17

聞媒體已經開始批評人工智能實驗室OpenAI及其聊天機器人ChatGPT,稱該實驗室使用他們的文章來訓練ChatGPT,但沒有付費。新聞集團旗下道瓊斯部門的法律總顧問傑森·孔蒂(Jason Conti)在一份聲明中說:“任何想要使用《華爾街日報