研究人員發現AI模型可生成真人照片和受版權保護的圖片

2023-02-06 發表於業界精選

研究人員發現，流行的圖片創作模型很容易被指示生成可識別的真人圖片，可能會危及相關聯人的隱私。一些提示導致人工智能復制一張圖片，而不是重繪完全不同的內容。這些重新制作的圖片還可能包含受版權保護的材料。但更糟糕的是，當代人工智能生成模型可以記憶和復制刮來的用於人工智能訓練集的私人數據。

研究人員從模型中收集一千多個訓練實例，范圍從個人照片到電影劇照、受版權保護的新聞圖片和有商標的公司標志，並發現人工智能幾乎以相同的方式復制其中的許多內容。來自普林斯頓大學和伯克利大學等高校的研究人員，以及來自科技部門--特別是Google和DeepMind--的研究人員進行這項研究。

研究團隊在之前的研究中指出人工智能語言模型的類似問題，特別是GPT2，即OpenAI大獲成功的ChatGPT的前身。在Google大腦研究員尼古拉斯-卡裡尼的指導下，團隊通過向Google的Imagen和Stable Diffusion提供圖片的標題，例如一個人的名字後生成結果。之後，他們驗證生成的圖像是否與模型數據庫中保存的原件相符。

來自穩定擴散的數據集，即被稱為LAION的多TB采集圖片集，被用來生成下面的圖片。它使用數據集中指定的標題。當研究人員在提示框中輸入標題時會產生相同的圖像，盡管因數字噪音而略有扭曲。接下來，研究小組在反復執行相同的提示後，手動驗證該圖像是否是訓練集的一部分。

研究人員指出，非記憶性的回應仍然可以忠實地表現出模型所提示的文字，但不會有相同的像素構成，並且會與其它訓練生成的圖像不同。

蘇黎世聯邦理工學院計算機科學教授和研究參與者Florian Tramèr觀察到研究結果的重大局限性。研究人員能夠提取的照片要麼在訓練數據中頻繁出現，要麼在數據集中的其他照片中明顯突出。根據弗洛裡安-特拉梅爾的說法，那些不常見的名字或外表的人更有可能被"記住"。

研究人員表示，擴散式人工智能模型是最不隱私的一種圖像生成模型。與生成對抗網絡（GANs），一類較早的圖片模型相比，它們泄露的訓練數據是前者的兩倍多。這項研究的目的是提醒開發者註意與擴散模型相關的隱私風險，其中包括各種擔憂，如濫用和復制受版權保護的敏感私人數據（包括醫療圖像）的可能性，以及在訓練數據容易被提取的情況下易受外部攻擊。研究人員建議的修復方法是識別訓練集中重復生成的照片，並從數據收集中刪除它們。

研究人員發現AI模型可生成真人照片和受版權保護的圖片

相關推薦

四大模型橫評：GPT-4在高達44%的提示中生成受版權保護的內容

Stability AI試圖通過新的圖像生成人工智能模型保持領先地位

AI藝術生成器剽竊原創作品三位藝術傢起訴AI作畫公司

美國版權局：AI制作的圖片不受版權保護

三位藝術傢起訴AI作畫公司：抓取50億張圖像侵犯“數百萬藝術傢”版權

藝術傢在起訴AI藝術生成器的首輪版權侵權案中敗訴

設計平臺Canva推出文字轉圖片的AI功能

百度文心一言潛藏風險：AI視頻素材來源不明創作者或陷版權風暴

安德森霍茨站隊科技巨頭：訓練AI的版權內容不能收費

一場可能顛覆整個AI世界規則的官司今年春天將會宣判

Getty圖片社因擔心受到法律挑戰而禁止人工智能生成的內容

科技巨頭狂撒千億美元 “買照片” 隻為訓練AI模型？

Google因培訓Imagen模型使用多位藝術傢作品而被起訴

AI產業的灰暗面：OpenAI、谷歌、Meta如何獲取訓練語料