研究人員發現AI模型可生成真人照片和受版權保護的圖片


研究人員發現,流行的圖片創作模型很容易被指示生成可識別的真人圖片,可能會危及相關聯人的隱私。一些提示導致人工智能復制一張圖片,而不是重繪完全不同的內容。這些重新制作的圖片還可能包含受版權保護的材料。但更糟糕的是,當代人工智能生成模型可以記憶和復制刮來的用於人工智能訓練集的私人數據。

研究人員從模型中收集一千多個訓練實例,范圍從個人照片到電影劇照、受版權保護的新聞圖片和有商標的公司標志,並發現人工智能幾乎以相同的方式復制其中的許多內容。來自普林斯頓大學和伯克利大學等高校的研究人員,以及來自科技部門--特別是Google和DeepMind--的研究人員進行這項研究。

研究團隊在之前的研究中指出人工智能語言模型的類似問題,特別是GPT2,即OpenAI大獲成功的ChatGPT的前身。在Google大腦研究員尼古拉斯-卡裡尼的指導下,團隊通過向Google的Imagen和Stable Diffusion提供圖片的標題,例如一個人的名字後生成結果。之後,他們驗證生成的圖像是否與模型數據庫中保存的原件相符。

來自穩定擴散的數據集,即被稱為LAION的多TB采集圖片集,被用來生成下面的圖片。它使用數據集中指定的標題。當研究人員在提示框中輸入標題時會產生相同的圖像,盡管因數字噪音而略有扭曲。接下來,研究小組在反復執行相同的提示後,手動驗證該圖像是否是訓練集的一部分。

2023-02-05-image-12-j_1100.webp

研究人員指出,非記憶性的回應仍然可以忠實地表現出模型所提示的文字,但不會有相同的像素構成,並且會與其它訓練生成的圖像不同。

蘇黎世聯邦理工學院計算機科學教授和研究參與者Florian Tramèr觀察到研究結果的重大局限性。研究人員能夠提取的照片要麼在訓練數據中頻繁出現,要麼在數據集中的其他照片中明顯突出。根據弗洛裡安-特拉梅爾的說法,那些不常見的名字或外表的人更有可能被"記住"。

研究人員表示,擴散式人工智能模型是最不隱私的一種圖像生成模型。與生成對抗網絡(GANs),一類較早的圖片模型相比,它們泄露的訓練數據是前者的兩倍多。這項研究的目的是提醒開發者註意與擴散模型相關的隱私風險,其中包括各種擔憂,如濫用和復制受版權保護的敏感私人數據(包括醫療圖像)的可能性,以及在訓練數據容易被提取的情況下易受外部攻擊。研究人員建議的修復方法是識別訓練集中重復生成的照片,並從數據收集中刪除它們。


相關推薦

2024-03-09

生成內容潛在的版權侵權行為。基於這一工具,PatronusAI研究人員在對抗性版權測試中發現,GPT-4、Claude2.1、Mixtral8x7B、Llama2等市面上頂尖的大語言模型都會以極快的速度生成受版權保護的內容,其中GPT-4最為嚴重,在高達44%的提

2024-02-15

影照片"生成的Stable Cascade圖像。新模型可在GitHub 上供研究人員使用,但不能用於商業用途。在Google甚至蘋果等公司發佈自己的圖像生成模型時,新模型也帶來更多選擇。與 Stability 的旗艦產品 Stable Diffusion 模型不同,Stable Cas

2023-02-13

這個網站上輸入這些作品的名字。也就是在那個時候,她發現自己的一些作品被用來訓練 Stable Diffusion,這是一種免費的人工智能模型,任何人都可以通過簡單的文字提示就能生成專業品質的圖像。Stable Diffusion 支持幾十個流行

2023-02-23

權局在一封信件中表示,AI繪畫工具Midjourney制作的圖片不受版權保護。美國版權局稱,藝術傢克裡斯蒂娜·卡什塔諾娃(KristinaKashtanova)寫一本名為《ZaryaoftheDawn》的漫畫書,雖然書的內容受版權保護,但她用Midjourney制作的AI圖片

2023-10-31

iffusion 公司曾對她的作品進行過訓練。該網站允許藝術傢發現自己的作品是否被用於人工智能模型訓練,並提供退出選項,以幫助防止進一步的未經授權使用。雖然被告抱怨安德森在"haveibeentrained"網站上提到的搜索結果

2023-01-17

去年11月份起訴微軟、GitHub和OpenAI,理由是他們的AI編程模型GitHub Copilot侵犯GitHub眾多程序員的版權。在通報最新訴訟的博客文章中,巴特裡克將此案描述為“讓AI確保公平和惠及所有人的又一步。”他說,像Stable Diffusion這樣的AI

2022-11-11

意的情況下被用於創造這些商業產品,盡管負責的公司和研究人員說使用這些數據是由美國公平使用原則等條款所涵蓋的。當被問及這些問題時,Adams說:"我認為關於人工智能產品在多大程度上可以被認為是合理使用的問題

2023-03-27

能力來自文心跨模態大模型ERNIE-ViLG。不過《IT時報》記者發現,百度低調向百傢號入駐作者開放的AI圖文轉視頻功能存在版權風險:百度視頻素材來源不明。但這一風險被轉嫁至媒體及其他百傢號作者,若被告侵權,作者將承擔

2023-11-08

免費使用受版權保護的數據來訓練人工智能(AI)大語言模型,是科技公司對人工智能進行巨大投資的基礎。安德森霍茨警告稱,如果開發人工智能技術的公司被迫為其使用受版權保護的數據而付費,那麼他們數十億美元的人工

2023-04-27

授權,但沒有註明戈德史密斯的名字。之後,戈德史密斯發現此事,聯系沃霍爾基金會,後者先發制人地起訴她,稱其為合理使用。戈德史密斯反訴侵權。2019年,一傢聯邦地區法院判決沃霍爾基金會勝訴,戈德史密斯上訴後,20

2022-09-21

,以及對保護網站客戶的渴望。彼得斯說:"對於這些模型輸出的版權問題,以及圖像、圖像元數據和圖像中包含的那些人的權利問題,存在著真正的擔憂。他說,鑒於這些問題,出售人工智能作品或插圖有可能使Getty Images的

2024-04-10

近130億張照片、視頻組成的龐大圖像庫,並以此來訓練AI模型。蘋果不是這傢網站的唯一買傢,其他矽谷大廠們都在尋求與之達成協議。而這些巨頭們也毫不吝嗇,甚至願意掏出數十億美元的真金白銀購買這些素材。不隻是Photobu

2024-05-01

使用現有的藝術作品來訓練人工智能模型是否侵權是很多人過去都討論過的問題,盡管這個話題還在討論中,但並沒有一個確切的結論。Google似乎又遇到一些麻煩,因為一群創作者正聯合起來反對這傢搜索引擎巨頭,並將其告上

2024-04-08

資源,而他們需要更多、更大規模的數據來訓練更強大的模型。為處理這個問題,OpenAI的Whisper語音識別工具誕生——用來轉錄Google旗下視頻平臺Youtube的視頻音頻,生成大量的對話文本。報道稱,包括OpenAI總裁佈洛克曼在內的團