AI抓取工具img2dataset困擾著圖片網站


img2dataset是一款自動在互聯網上搜索圖像數據並用訓練於人工智能圖像生成器的免費工具,不過這款工具引發網站所有者的擔憂。網站所有者認為這款工具將擅自獲取他們的圖像和數據,而不是經過許可,希望img2dataset停止抓取行為的做法。

對此,這款工具的創建者羅曼·博蒙特(Romain Beaumont)在其GitHub表示,他們(網站擁有者)正在與人工智能不可避免的崛起作鬥爭,這是“可悲的”。“令人難過的是,你們中的一些人不解人工智能和開放人工智能的潛力,因此決定與之鬥爭。”“在未來的幾年裡,你將有很多機會從人工智能中受益。我希望你盡早看到這一點。作為創作者,你有更多的機會從中受益。”


Img2dataset是博蒙特在GitHub上共享的免費工具,允許用戶自動下載和調整URL列表,從而獲得圖像數據集,這種數據集訓練圖像生成人工智能模型,如OpenAI的DALL-E,開源的Stable Diffusion和Google的Imagen。

博蒙特還是LAION-5B的開源貢獻者,LAION-5B是世界上最大的圖像數據集之一,包含超過50億張圖像,供給Imagen和Stable Diffusion使用。

Img2dataset會嘗試從任何網站抓取圖像,除非網站所有者添加https頭,如“X-Robots-Tag: noai”和“X-Robots-Tag: noindex”。這意味著網站所有者可以選擇”阻止“img2dataset,不過他們中的許多人可能甚至不知道img2dataset的存在。

博蒙特為img2dataset辯護,將該工具與Google索引網站的方式進行比較,稱Google索引方式對任何想搜索互聯網的人都有好處。

對此有專傢認為,網站所有者是直接受益於搜索引擎,因為它們為網站帶來有用的流量。Google的機器人是有原則的,不會攻擊網站,大多數機器人都尊重robots.txt指令。而Img2dataset則沒有,該工具似乎是故意設忽視網站所有者的指令。坦率地說,它並沒有給網站所有者帶來任何直接好處。

毫無疑問,Img2dataset這款AI工具引起網站所有者的擔憂,他們擔心他們的敏感數據和隱私正在被侵犯,如果AI技術的發展不受控制,很容易操縱大量的數據。


相關推薦

2022-09-21

禁止上傳和銷售使用DALL-E、Midjourney和StableDiffusion等AI藝術工具生成的插圖。這是繼Newgrounds、PurplePort和FurAffinity等網站做出類似決定後,最新也是最大的用戶生成內容平臺出臺此類禁令。Getty圖片社首席執行官克雷格-彼得斯(Craig

2022-09-27

,這位藝術傢貼出授權表。在網上,LAION數據集可被公開抓取使用,還有媒體曝出,它正是Stable Diffusion和Google Imagen等圖片生成模型的訓練集之一。此事引起不少人關註,有媒體在LAION數據集中還扒出上千人的類似病例圖片——有

2024-04-12

啊。於是OpenAI計上心頭,創建一個名為Whisper的語音識別工具,將超過100萬小時的YouTube視頻轉錄,然後再喂給模型。此前,尚未開放給大眾的文本到視頻工具Sora也引起外界懷疑。在一次采訪中,OpenAI的首席技術官米拉·穆拉蒂(M

2024-02-20

個文本文件,每個網站都用它來說明自己是否願意被爬蟲抓取。30年來,一直是它,讓互聯網不至於在混亂中運行。不過這個規則能長久運行其實純靠一個人性邏輯——你讓搜索引擎抓取你的網站,同時你會獲得搜索引擎的流量

2023-01-17

些組織在“未經原始藝術傢同意”的情況下,利用從網上抓取的50億張圖像對其AI工具進行訓練,侵犯“數百萬藝術傢”的作品版權。他們委托的律師名為馬修·巴特裡克(Matthew Butterick)以及約瑟夫薩維裡律師事務所,巴特裡克

2024-04-10

也隻能乖乖掏錢為訓練數據付費。至少比起互聯網上免費抓取的數據,Photobucket近130億的數據量還是相對來說質量更高點。花錢買數據,或許還不夠可怕的是,即便是130億的數據量,也可能喂不飽現在的AI的模型。研究機構Epoch直

2024-03-29

站的首頁,為什麼呢?因為小紅書早已禁止所有搜索引擎抓取小紅書的內容。小紅書的robots.txt文件已經明確禁止所有搜索引擎抓取內容,不過藍點網檢索後發現實際上小紅書是在2023年4月2日修改robots.txt文件的,轉眼間這都修改1

2023-03-24

到很多自己的照片,還有跟你長得很像的人。不過,這個工具在進行算法訓練的時候,使用的並不是用戶授權的照片,而是基於整個網絡各個平臺的照片,來進行面部識別。所以在你的照片被識別後,搜索結果往往會出現很多色

2022-10-16

isco Diffusion、DALL-E 2、Imagen、Midjourney和Stable Diffusion等作畫工具先後出現,AI作畫的風格開始變得越來越多變,生成的圖片不再局限於抽象,而是能夠產出具體的人物/事件,畫出的作品也越來越符合邏輯。然而,要說“AI作畫”這

2023-05-11

,無論是畫面的主角、天空還是背景,都可以編輯,可以抓取可以移除。比如用戶主要想拍的是瀑佈,可以把瀑佈邊的人挪開些,拍照時人忘取下背帶,可以把拍到的背帶抹去,可以把拍出的天空調得更明亮。神奇編輯功能將於

2023-11-04

任何自動化或編程的方法從服務中提取數據並輸出,包括抓取、網絡收集或網絡數據提取。所以用的時候也要低調一點(doge)微軟SoM作者也來圍觀這個項目在網上發出後,吸引不少人的圍觀。像是小哥用到的微軟Set-of-Mark Promptin

2024-01-29

在網上開源發佈,該水印用於抵抗AI模型對圖片的訓練和抓取。與此同時,也有開發者建議讓AI生成平臺,公司給相關的AI生成軟件加上隱形水印機制,以快速識別AI並進行溯源。而各大社交平臺也要通過技術手段加強對於疑似AI

2023-04-06

者不同,塞維爾的創作並不涉及專業美術知識。他使用的工具叫Midjourney。這是一款時興的人工智能(AI)繪畫工具,即便是沒有美術基礎的人也能將其掌握。用戶需要做的隻是在輸入框中填入描述性的文字,等待數分鐘,便會有

2023-11-01

年初人工智能熱潮開始以來,英偉達產品的短缺問題一直困擾著分析師們。說到美國三大半導體設計公司,即英特爾、英偉達和 AMD,英特爾不僅是最大的公司,也是最受困擾的公司。接連不斷的生產進度緩慢和個人計算市場的