美國媒體揭開大模型陰暗面:訓練用的數據可能有點臟


在過去半年不到的時間裡,許多地球上的人類已經接觸到AI聊天機器人的魅力和魔力。但歸根結底,目前並沒有AI已經產生像人類一樣的自我意識,它們能夠模仿人類講話,主要原因是算法“吸收”大量的文本——大部分是從互聯網上抓取的。

互聯網上蘊含著大量有用、有益的經驗和知識,但數字時代的網民們也不得不承認,在煙波浩渺的互聯網信息叢林中,也蘊含著大量偏見、歧視、有害,以及侵犯名譽和隱私的內容。種種跡象顯示,這些“人類的禁忌知識”也被大模型照單全收

當地時間周三,《華盛頓郵報》發表與艾倫人工智能研究院合作進行的調查結果,他們拆解谷歌的C4數據集,這也是許多知名英語AI大模型的訓練材料,例如谷歌的T5和Facebook的LLaMA。中國投資者更關註的OpenAI並沒有公佈訓練ChatGPT所用的數據集,所以這也是目前窺得AI數據黑箱的最便利解決方案。

AI數據集黑箱揭秘

值得一提的是,調查人員使用SimilarWeb的網站分類數據,由於C4數據集中有三分之一的網站已經不存在這個世界上,所以實際統計的數據大約為1000萬個網站。

根據研究,囊括全球專利信息的谷歌專利網、維基百科和訂閱制數字圖書館scribd的資料權重位列整個數據集前三。但隨著列表往下翻,一系列意想不到的名字開始出現。

已經被美國司法部查封的盜版電子書網站b-ok.org高居第190位,類似這樣因為侵犯版權被美國查封的網站還在數據集中出現至少27次。

(b-ok.org現在是這個樣子的,來源:網站)
(b-ok.org現在是這個樣子的)

此外,《魔獸世界》玩傢論壇wowhead也高居第181位,《赫芬頓郵報》創始人阿裡安娜·赫芬頓辦的行為轉變課程網站thriveglobal也位居175位。令人意外的是,有兩個美國投票人數據庫網站也位列前100位。雖然投票人的數據本身是公開的,但大模型可能會把這些個人數據用在哪裡,又有誰能說清楚呢?

接下來的數據則顯示,AI大模型潛在的侵權問題,可能要比想象中更加嚴重。商業和行業網站是數據集中比重最大的分類,創意產品眾籌網站kickstarter(25位)也出現在榜單裡非常高的位置。這裡就引出一個新的問題,AI向用戶提供的許多創意和市場營銷答案,很有可能本身就是現成的作品

研究人員也發現,超過50萬的個人博客被收錄進C4訓練集中,這些作者顯然沒有因此得到過任何報酬。

作為AI訓練的“富礦”,每天都大量生產經過審校內容的媒體也是訓練集的最愛,紐約時報、洛杉磯時報、衛報、福佈斯和赫芬頓郵報均擠進數據庫比重前十。與許多藝術傢一樣,不少媒體目前也在向AI產業聲索維權。由於美國媒體行業的復雜性,所以訓練集中也能找到以極右翼、白人至上主義內容為主基調的網站

事實上,谷歌在構建數據庫的時候,已經意識到網絡信息污染的問題,所以除刪除毫無意義和重復的語句外,特意用開源的“臟話過濾器”篩過一遍,但似乎有數量非常龐大的漏網之魚鉆過去。研究人員就在訓練集中找到至少7.2萬個德國納粹的標志性符號。

更令人擔憂的是,訓練集中也能找到宣揚種族主義、極右翼陰謀論(QAnon)的網頁,而以組織網絡暴力聞名的4Chan匿名聊天網站也出現在訓練集中。

比起數據臟 處理數據的態度更迷離

雖然C4訓練集的數據已經非常龐大,但用於訓練OpenAI GPT-3的網絡爬蟲數據集,從一開始就要比C4大40倍,背後的問題自然也會被同步放大。

但在GPT-3的論文中,OpenAI也公開討論一個細節:在防止測試數據被放進訓練數據導致污染的過程中發現一個BUG,但由於重新訓練模型太貴、公司又沒錢,所這個問題就放著不去管它

一些業內人士也透露,許多科技公司在內部都不會記錄訓練數據的來源,因為擔心會發現個人信息數據,以及未經授權的材料或其他數據。


相關推薦

2024-07-30

技術論文中透露,其人工智能系統Apple Intelligence所依賴的模型並非基於NVIDIA芯片,而是在谷歌設計的雲端芯片上進行預訓練的。NVIDIA的GPU一直以高價位和高需求著稱,是許多大型科技公司AI訓練的首選。然而,蘋果選擇谷歌的張

2023-01-11

者均來自微軟,其中有三位共同一作。一作Chengyi Wang,南開大學和微軟亞研院聯合培養博士生,研究興趣是語音識別、語音翻譯和語音預訓練模型等。共同一作Sanyuan Chen,哈工大和微軟亞研院聯合培養博士生,研究方向包括自監

2022-10-13

大規模語言模型,微信版,來!並且甫一登場,就沒藏著掖著:論文、API接口、在線試玩網站……一條龍全都齊備。續寫文本、閱讀理解等常規任務就不說,這個名叫WeLM的AI,竟然直接讓我和李白跨時空聊起杜甫:原標題:微信

2024-09-20

播客節目裡,聽到MiniMax的植入......廣告投放,是當下大模型白熱化競爭中的一個切面。大模型廠商們希望獲得足夠多的用戶,講一個大模型原生應用的故事。但現實是,高額的成本、千萬級的用戶,都不足以支撐故事繼續。繞

2024-06-27

暗面創始人楊植麟始終對Kimi抱有極高期待。今年3月,大模型Kimi突然爆火,使得月之暗面成為資本寵兒,成立僅一年有餘便達到30億美元的估值水平。但與其他大模型初創企業一致,在“高燒”兩個月後,Kimi開始迅速降溫,不過

2023-11-04

電動機消耗掉的電量就占到總發電量的一半,而現在的大模型就相當於新時代的電機。而這個新時代的 “ 電機 ” ,也是相當耗電。現在,為喂飽它這隻電老虎,有些公司甚至準備搬出 “ 核動力 ” 。其實在業內,關於 AI 和能

2023-02-16

2月9日,發表在美國《科學公共圖書館·數字健康》的一篇文章提到,ChatGPT參加美國執業醫師資格考試。這項以高難度著稱的考試中,共350道題,內容涵蓋基礎科學、生物化學、診斷推理和生物道德學。ChatGPT未經專門的培訓或強

2024-07-12

,作者:黎明,授權站長之傢轉載發佈。這兩年熱鬧的大模型創業潮,被業內稱為“AI2.0”。與之對應的“AI1.0”,指的是2015年左右開始的那一波AI創業潮,當時誕生商湯、曠視、雲從、依圖等明星創業公司,它們以CV技術(計算

2024-02-17

IPO;參與此項交易的其他投資銀行可能還包括摩根大通、美國銀行和花旗集團等。知情人士表示,Reddit內部圍繞IPO的討論仍在進行中,上市計劃以及與AI貨幣化有關的細節都可能發生變化。Reddit的一位代表拒絕就媒體援引的知情

2022-12-23

ChatGPT的橫空出世,讓Pichai真的怕。沒有大力發展聊天機器人,是Google的戰略性失誤嗎?這個月,OpenAI的ChatGPT橫空出世,立刻在AI圈掀起一股大風暴。清晰、智能、循循善誘,甚至能包辦論文和代碼。當時許多人就預言:Google恐

2023-04-07

時,ChatGPT及類似的LLM們,也開始“大殺八方”。近日,美國就業服務平臺Resume Builder公佈的一項調查統計顯示,在1000多傢受訪美國企業中,有48%的企業已經在用ChatGPT取代人類員工。新聞出版業感受到這場沖擊波。今天的AI越來

2023-12-05

出回應,稱重復使用某個指令可能違反其服務條款。數字媒體調查網站404 Media近日對谷歌研究人員的發現進行核實,在要求ChatGPT不斷重復“computer(計算機)”這個詞時,該機器人確實吐出這個詞,但還附上一條警告,上面寫著

2024-04-19

潑兩次。第一次是4月11日晚間,李彥宏的一封內部講話被媒體“曝光”。他表示大模型開源的意義不大,閉源模型在能力上會持續地領先,而不是一時地領先,做模型的創業公司既做模型又做應用的“雙輪驅動”不是一個好的模

2024-04-12

經住進“ICU”整整一年,破產看來已經註定,但最近一傢美國同行搭上AI快車的消息,又給天涯帶來一絲希望。去年4月,因拖繳數據機房費用,天涯社區遭“斷網”。癥結在缺錢。天涯社區稱,危機來自於近幾年資金流動性困難