美國媒體揭開大模型陰暗面：訓練用的數據可能有點臟

2023-04-20 來自財聯社發表於業界精選

在過去半年不到的時間裡，許多地球上的人類已經接觸到AI聊天機器人的魅力和魔力。但歸根結底，目前並沒有AI已經產生像人類一樣的自我意識，它們能夠模仿人類講話，主要原因是算法“吸收”大量的文本——大部分是從互聯網上抓取的。

互聯網上蘊含著大量有用、有益的經驗和知識，但數字時代的網民們也不得不承認，在煙波浩渺的互聯網信息叢林中，也蘊含著大量偏見、歧視、有害，以及侵犯名譽和隱私的內容。種種跡象顯示，這些“人類的禁忌知識”也被大模型照單全收。

當地時間周三，《華盛頓郵報》發表與艾倫人工智能研究院合作進行的調查結果，他們拆解谷歌的C4數據集，這也是許多知名英語AI大模型的訓練材料，例如谷歌的T5和Facebook的LLaMA。中國投資者更關註的OpenAI並沒有公佈訓練ChatGPT所用的數據集，所以這也是目前窺得AI數據黑箱的最便利解決方案。

AI數據集黑箱揭秘

值得一提的是，調查人員使用SimilarWeb的網站分類數據，由於C4數據集中有三分之一的網站已經不存在這個世界上，所以實際統計的數據大約為1000萬個網站。

根據研究，囊括全球專利信息的谷歌專利網、維基百科和訂閱制數字圖書館scribd的資料權重位列整個數據集前三。但隨著列表往下翻，一系列意想不到的名字開始出現。

已經被美國司法部查封的盜版電子書網站b-ok.org高居第190位，類似這樣因為侵犯版權被美國查封的網站還在數據集中出現至少27次。

（b-ok.org現在是這個樣子的，來源：網站）
（b-ok.org現在是這個樣子的）

此外，《魔獸世界》玩傢論壇wowhead也高居第181位，《赫芬頓郵報》創始人阿裡安娜·赫芬頓辦的行為轉變課程網站thriveglobal也位居175位。令人意外的是，有兩個美國投票人數據庫網站也位列前100位。雖然投票人的數據本身是公開的，但大模型可能會把這些個人數據用在哪裡，又有誰能說清楚呢？

接下來的數據則顯示，AI大模型潛在的侵權問題，可能要比想象中更加嚴重。商業和行業網站是數據集中比重最大的分類，創意產品眾籌網站kickstarter（25位）也出現在榜單裡非常高的位置。這裡就引出一個新的問題，AI向用戶提供的許多創意和市場營銷答案，很有可能本身就是現成的作品。

研究人員也發現，超過50萬的個人博客被收錄進C4訓練集中，這些作者顯然沒有因此得到過任何報酬。

作為AI訓練的“富礦”，每天都大量生產經過審校內容的媒體也是訓練集的最愛，紐約時報、洛杉磯時報、衛報、福佈斯和赫芬頓郵報均擠進數據庫比重前十。與許多藝術傢一樣，不少媒體目前也在向AI產業聲索維權。由於美國媒體行業的復雜性，所以訓練集中也能找到以極右翼、白人至上主義內容為主基調的網站。

事實上，谷歌在構建數據庫的時候，已經意識到網絡信息污染的問題，所以除刪除毫無意義和重復的語句外，特意用開源的“臟話過濾器”篩過一遍，但似乎有數量非常龐大的漏網之魚鉆過去。研究人員就在訓練集中找到至少7.2萬個德國納粹的標志性符號。

更令人擔憂的是，訓練集中也能找到宣揚種族主義、極右翼陰謀論（QAnon）的網頁，而以組織網絡暴力聞名的4Chan匿名聊天網站也出現在訓練集中。

比起數據臟處理數據的態度更迷離

雖然C4訓練集的數據已經非常龐大，但用於訓練OpenAI GPT-3的網絡爬蟲數據集，從一開始就要比C4大40倍，背後的問題自然也會被同步放大。

但在GPT-3的論文中，OpenAI也公開討論一個細節：在防止測試數據被放進訓練數據導致污染的過程中發現一個BUG，但由於重新訓練模型太貴、公司又沒錢，所這個問題就放著不去管它。

一些業內人士也透露，許多科技公司在內部都不會記錄訓練數據的來源，因為擔心會發現個人信息數據，以及未經授權的材料或其他數據。

美國媒體揭開大模型陰暗面：訓練用的數據可能有點臟

相關推薦

不是NVIDIA！蘋果官宣AI模型訓練用的谷歌芯片

3秒復制任何人的嗓音微軟音頻版DALL·E連環境背景音也能模仿

微信版大語言模型：論文、API接口、在線試玩網站......一應俱全

廣告燒錢過億，70%用戶靠投流，大模型算不過成本賬？

“亂戰”中的Kimi：靠技術還能穩住潑天流量嗎？

AI訓練一次把我傢這輩子的電都用完…

ChatGPT為何沒能誕生在中國？

“美版貼吧”Reddit上市前簽署AI內容授權協議

誰才是大模型“四小龍”？

ChatGPT狂砸搜索引擎飯碗 Google CEO劈柴召開大會拉響“紅色警報”

你都被ChatGPT白嫖，還得給它數錢

研究人員稱重復某些關鍵詞可讓ChatGPT自曝訓練數據 OpenAI：違反服務條款

大模型應開源還是閉源？周鴻禕懟上李彥宏

給AI當“奶媽”，是天涯們的生路嗎？