研究稱48%熱門新聞網站屏蔽OpenAI爬蟲


據路透社研究所的一項調查顯示,截至2023年底,10個國傢/地區近一半(48%)的熱門新聞網站屏蔽OpenAI的爬蟲,而近四分之一(24%)屏蔽Google的AI爬蟲。路透社研究所分析15個覆蓋范圍最廣的在線新聞來源的robots.txt,其中包括《紐約時報》、BuzzFeedNews、《華爾街日報》、《華盛頓郵報》、CNN和NPR等標題,涵蓋德國、印度、西班牙等國傢/地區、英國和美國。

F29i4goXQAE9zEX(PNG 圖像,685x812 像素).jpg

由於缺乏明確的監管框架來管理生成式人工智能對受版權保護的材料的使用,許多大型出版商自行解決問題,將人工智能公司告上法庭,更新服務條款,阻止爬蟲或達成交易以保護優質內容,數據和收入。

該研究將媒體分為三類:傳統印刷出版物、電視和廣播電臺以及數字媒體。

到 2023 年底,超過二分之一 (57%) 的傳統印刷出版物網站(例如《紐約時報》)將屏蔽 OpenAI 的爬蟲程序,而電視和廣播公司的這一比例為 48%,數字媒體的比例為 31%。

同樣,32% 的印刷媒體屏蔽 Google 的抓取工具,而 19% 的廣播公司和 17% 的數字媒體也采取同樣的做法。

Gartner 副總裁、傑出分析師安德魯·弗蘭克 (Andrew Frank) 表示:路透社的研究強調生成式人工智能面臨的一個根本挑戰:它依賴於真實的人生成的真實內容,而這些人將其視為對其生計的威脅。

與此同時,康奈爾大學最近的一項研究發現,當新的人工智能模型根據先前模型而不是人類輸入的數據進行訓練時,它們往往會模型崩潰或退化,導致生成的輸出中錯誤和錯誤信息增加。

“這表明大型語言模型開發人員需要找到方法來補償那些創建或報告真實內容的人,這不僅是為社會,也是為他們自己的商業利益。”弗蘭克說。

部署網站爬蟲的原因有很多。像Google的 Googlebot 這樣的爬蟲會在這傢科技巨頭的搜索結果中索引出版商網站。與此同時,OpenAI 的爬蟲 GPTBot 通過互聯網收集數據來訓練其大型語言模型,例如 ChatGPT。這使得人工智能工具能夠生成準確的同步數據——新聞出版商尤其具有獨特的優勢來提供這種能力:GoogleAI的權重比優質出版商的內容高出5 到 100倍。人工智能驅動的解決方案正在成為傳統搜索引擎的替代品。

根據這項研究,與南半球的新聞媒體相比,北半球的新聞媒體更傾向於阻止人工智能爬蟲。

在美國,79% 的頂級在線新聞網站屏蔽 OpenAI,而在墨西哥和波蘭,隻有 20% 的網站這樣做。與此同時,德國 60% 的新聞網站屏蔽Google的爬蟲,而波蘭和西班牙則有 7% 的新聞網站屏蔽Google的爬蟲。

幾乎所有屏蔽 Google AI 的網站也屏蔽 OpenAI(97%)。盡管該研究沒有對這一趨勢提供明確的解釋,但它表明 OpenAI 在 Google 之前發佈其爬蟲程序可能對此有所貢獻。

與此同時,在大多數國傢/地區,一些出版商在這兩套爬蟲程序發佈後立即對其進行屏蔽。OpenAI 於去年 8 月初推出人工智能爬蟲,Google也於 9 月緊隨其後。根據這項研究,一旦做出屏蔽決定,沒有任何網站會改變立場,解除對 OpenAI 或 Google AI 爬蟲的屏蔽。


相關推薦

2023-09-14

wuhao),作者:婁立原 於海嬌,授權站長之傢轉載發佈。新聞媒體打響AI“保衛戰”面對生成式AI的沖擊,海外新聞業存在悲觀和樂觀的兩種態度。在悲觀者看來,ChatGPT的橫空出世代表著對新聞業的沖擊。而在樂觀者看來ChatGPT能

2023-08-08

到個人身份的數據。不僅如此,OpenAI也把是否要把自己的網站數據供GPTBot抓取的選擇交到給網站所有者,他們可自行修改其robots.txt文件。或者通過屏蔽其IP地址,來阻止GPTBot從其網站上抓取數據。這當然仍不足夠,修改robots.txt

2024-02-20

站建立目錄,以確保自己的網站正常運行,或者建立一個研究數據庫——這是 1993 年左右的事情,當時搜索引擎還沒有普及,電腦硬盤裡還裝不下大部分互聯網內容。robots.text 的真正作用|圖片來源:KeyCDN那時唯一的問題是流量

2024-03-23

。於是這就產生一個安全問題:有詐騙者在 X 上冒充知名新聞網站福佈斯發佈加密貨幣相關的內容,吸引幣圈用戶加入他們的社群,然後操作一些垃圾幣來收割。從下圖中我們可以看到這種惡意利用的流程:詐騙者在服務器上進

2023-04-20

能訓練數據的內部構成,《華盛頓郵報》與艾倫人工智能研究所的研究人員合作,對Google的C4數據集進行分析。這個數據集是一個包含1500多萬個網站的海量快照,這些網站內容被用來訓練許多備受關註的英語人工智能,例如Google

2023-03-20

2021年和2022年的年終總結以及過去7天的市場新聞和大多數熱門新聞,以幫它解如何根據最近的事件來投資。Cointelegraph指示聊天機器人用100美元賺錢。GPT-4指出,“最近矽谷銀行和Signature Bank的倒閉導致金融領域的不確定性增加。

2023-02-24

Google正在進行測試,阻止一些加拿大用戶訪問其平臺上的新聞內容,以回應一項新的法案,該法案可能迫使Google和其他大型平臺,如Meta的Facebook與新聞出版商談判向他們提供內容。據報道,這些測試將影響不到4%的加拿大用戶,

2023-04-07

出版行業的高管們對於ChatGPT的爆火也坐不住。他們正在研究出版集團們的內容在多大程度上被用於“培訓”ChatGPT等人工智能工具。一場針對版權、法規的爭論正在展開。每個碼字工可能都被ChatGPT白嫖對此,美國新聞媒體聯盟的

2023-08-17

月早些時候,包括美聯社和歐洲出版商理事會在內的多傢新聞機構簽署一封公開信,呼籲全球立法者制定相關規則,要求訓練數據集透明,並在使用數據進行訓練前征得權利人的同意。

2023-08-17

月早些時候,包括美聯社和歐洲出版商理事會在內的多傢新聞機構簽署一封公開信,呼籲全球立法者制定相關規則,要求訓練數據集透明,並在使用數據進行訓練前征得權利人的同意。

2023-08-16

月早些時候,包括美聯社和歐洲出版商理事會在內的多傢新聞機構簽署一封公開信,呼籲全球立法者制定相關規則,要求訓練數據集透明,並在使用數據進行訓練前征得權利人的同意。

2023-11-01

推出移動優先索引,到2018年12月,Google搜索結果中的一半網站都來自移動優先索引。簡單地說,移動優先索引就是Google將從移動瀏覽器的視角抓取你的網站,並使用該移動版本進行索引和排名。Google在 2020年3月初,也就是全球大

2024-02-29

Copilot的訴訟。據TheVerge報道,RawStory、TheIntercept和AlterNet新聞網站已分別對這兩傢公司提起訴訟,但他們都使用同一傢律師事務所。這些新聞公司都聲稱,OpenAI 的 ChatGPT(微軟自己的聊天機器人 Copilot 也在使用)復制他們網站上

2024-04-10

,即便是130億的數據量,也可能喂不飽現在的AI的模型。研究機構Epoch直白地表示,現在科技公司使用數據的速度已經超過數據生產的速度,這些公司最快會在2026年就耗盡互聯網上的高質量數據。有數據統計,在2020年11月發佈的G