OpenAI推出網絡爬蟲機器人GPTBot:收集數據改進AI模型


快科技8月8日消息,OpenAI推出一種名為GPTBot的網絡爬蟲機器人,用於收集信息數據以改進未來的AI模型。

據解,GPTBot將嚴格遵守任何付費墻的規則,不會抓取需要付費的信息,並且也不會收集能追蹤到個人身份的數據。

不僅如此,OpenAI也把是否要把自己的網站數據供GPTBot抓取的選擇交到給網站所有者,他們可自行修改其robots.txt文件。或者通過屏蔽其IP地址,來阻止GPTBot從其網站上抓取數據。

這當然仍不足夠,修改robots.txt是一種方式,但它可以更便利和更具透明度,也可進一步告知數據將被用於什麼用途等等。

此前,OpenAI抓取公開數據來訓練專利AI模型的行為備受爭議。Reddit和Twitter等網站,已經采取措施打擊AI公司免費使用其用戶帖子的行為,而一些作者和其他創作者也因為涉嫌未經授權使用其作品而提起訴訟。


相關推薦

2024-02-20

I 爬蟲,反抗自己的數字資產被無償使用。不過如Google和 OpenAI 這樣的 AI 推動者,也在試圖找到更好的規則,畢竟隻有各方獲益才能持續發展。01robots.txt,一個簡單有效的協議robots.txt,通常位於“yourwebsite.com/robots.txt”。任何一

2023-08-17

公共數據來訓練其各種人工智能服務,如Bard或Cloud AI。為OpenAI ChatGPT等人工智能服務提供“動力”的許多大型語言模型都是在龐大的數據集上訓練出來的,而這些數據集可能包含未經原創作者許可從網絡上搜刮來的受版權保護或

2023-08-17

公共數據來訓練其各種人工智能服務,如Bard或Cloud AI。為OpenAI ChatGPT等人工智能服務提供“動力”的許多大型語言模型都是在龐大的數據集上訓練出來的,而這些數據集可能包含未經原創作者許可從網絡上搜刮來的受版權保護或

2023-08-16

公共數據來訓練其各種人工智能服務,如Bard或Cloud AI。為OpenAI ChatGPT等人工智能服務提供“動力”的許多大型語言模型都是在龐大的數據集上訓練出來的,而這些數據集可能包含未經原創作者許可從網絡上搜刮來的受版權保護或

2024-02-27

至2023年底,10個國傢/地區近一半(48%)的熱門新聞網站屏蔽OpenAI的爬蟲,而近四分之一(24%)屏蔽Google的AI爬蟲。路透社研究所分析15個覆蓋范圍最廣的在線新聞來源的robots.txt,其中包括《紐約時報》、BuzzFeedNews、《華爾街日報》、

2023-04-20

材料,例如谷歌的T5和Facebook的LLaMA。中國投資者更關註的OpenAI並沒有公佈訓練ChatGPT所用的數據集,所以這也是目前窺得AI數據黑箱的最便利解決方案。AI數據集黑箱揭秘值得一提的是,調查人員使用SimilarWeb的網站分類數據,由於

2024-04-12

旅程。根據公開消息,才創立不到一個月,Pi已經被包括OpenAI和其早期投資者Khosla Ventures、美國紅杉資本、Lux Capital在內的多傢風投機構提前鎖定,拿下7000萬美元的高額融資。這不僅因為公司在機器人賽道中的技術前景被無比看

2023-02-17

PT-1在Transformer誕生還不到一年的時候,人工智能研究機構OpenAI推出具有1.17億個參數的GPT-1模型,GPT是Generative Pre-training Transformer(生成式預訓練Transformer)的縮寫,即用大量數據訓練的基於Transformer的模型。該公司希望開發多技能

2023-04-07

何執行“打不過就加入”的策略,他們希望嘗試跟微軟、OpenAI、谷歌這樣的AI研發公司分分ChatGPT的“錢”。3月23日,美國新聞集團旗下媒體華爾街日報報道,有知情人士透露,最近幾周,美國出版行業的高管們對於ChatGPT的爆火

2023-02-05

一個老版本,而且是倉促推出的,它的走紅就連其開發商OpenAI自己都沒想到。緊急發佈舊版本去年11月中旬的一天,OpenAI員工接到一項意外任務:發佈一個聊天機器人,而且還得快。OpenAI的一位高管宣佈,“GPT-3.5聊天機器人”(Ch

2023-10-26

度的有意義的第一步。一些最常用的微調數據集最初是由OpenAI和Google等公司創建的數據集。越來越多的數據集是利用 OpenAI 模型創建的機器數據集。包括OpenAI在內的領先人工智能實驗室禁止使用其工具的輸出結果開發競爭性人工

2024-03-20

北京時間3月20日,OpenAI準備在未來幾個月內發佈新版大語言模型GPT-5。目前,ChatGPT使用的是GPT-4大模型,這款熱門聊天機器人引發當前的人工智能項目和投資浪潮。知情人士稱,OpenAI將在今年年中的某個時候發佈GPT-5,很可能是

2024-03-02

司FigureAI宣佈獲得B輪6.75億美元融資,其背後投資者包括OpenAI、微軟、英偉達和亞馬遜創始人傑夫·貝佐斯。經過這一輪投資,FigureAI的估值已經達到26億美元——作為一傢2020年剛剛成立的公司,不到兩年時間,就成為機器人領域

2024-04-10

就已經碰到訓練語料缺失的瓶頸。據《紐約時報》報道,OpenAI在訓練GPT-4時,就曾遇到英文文本資料缺失的情況。為處理這個問題,OpenAI推出一款名為Whisper語音識別工具,用來轉錄Google旗下視頻平臺Youtube的視頻音頻,生成大量