人工智能研究人員發現使用流行數據集的道德和法律風險


在領先的人工智能實驗室之外,大多數新產品開發人員都不是從零開始的。他們從現成的人工智能(如Meta的開源語言模型Llama2)開始,然後從GitHub和HuggingFace等在線資源庫中尋找數據集,教生成式人工智能系統如何更好地回答問題或總結文本。

F9Te1gFWYAAEVJh.jpeg

盡管這些數據集可免費獲取,但根據一項對廣泛使用的數據集進行檢查的最廣泛的研究項目顯示,這些數據集充斥著未經授權的數據。

在一群機器學習工程師和法律專傢的組織下,"數據出處倡議"(Data Provenance Initiative)研究用於教授人工智能模型擅長特定任務的專業數據,這一過程被稱為"微調"。他們審核 Hugging Face、GitHub 和 Papers With Code(2019 年加入 Facebook AI)等網站上的 1800 多個微調數據集,發現約 70% 的數據集沒有說明應使用何種許可,或者被錯誤地標註比其創建者意圖更寬松的準則。

能夠回答問題和模仿人類說話的聊天機器人的出現,掀起一場建立更大更好的生成式人工智能模型的競賽。這也引發有關版權和合理使用互聯網文本的問題,而互聯網文本是訓練大型人工智能系統所需的海量數據的關鍵組成部分。

但是,如果沒有適當的授權,開發人員就會對潛在的版權限制、商業使用限制或數據集創建者的信用要求一無所知。該倡議報告的共同作者、研究實驗室 Cohere for AI 的負責人薩拉-胡克(Sara Hooker)說:"即使人們想做正確的事,他們也做不到。"

麻省理工學院媒體實驗室研究大型語言模型的博士生 Shayne Longpre 領導這次審計,他說,托管網站允許用戶在上傳數據集時識別許可證,不應該因為錯誤或遺漏而受到指責。

朗普雷說,缺乏適當的文檔是一個源於現代機器學習實踐的全社會問題。數據檔案經常被多次合並、重新打包和重新授權。他說,試圖跟上新版本發佈步伐的研究人員可能會跳過記錄數據來源等步驟,或者故意模糊信息,以此作為"數據洗錢"的一種形式。

dypDS-TaFxgcJLwB.jpg

通過互動網站,用戶可以探索審計中分析的數據集內容,其中一些數據集已被下載數十萬次。

Hugging Face的機器學習和社會團隊負責人亞辛-傑尼特(Yacine Jernite)說,Hugging Face發現,數據集在開放、持續使用和共享的情況下,會有更好的文檔記錄。這傢開源公司已將改進文檔的工作列為優先事項,例如自動建議元數據。傑尼特說,即使註釋不完善,公開可訪問的數據集也是提高該領域透明度的有意義的第一步。

一些最常用的微調數據集最初是由OpenAI和Google等公司創建的數據集。越來越多的數據集是利用 OpenAI 模型創建的機器數據集。包括OpenAI在內的領先人工智能實驗室禁止使用其工具的輸出結果開發競爭性人工智能模型,但允許某些非商業用途。

人工智能公司對用於訓練和完善流行人工智能模型的數據越來越保密。這項新研究的目標是讓工程師、政策制定者和律師解助長人工智能淘金熱的不可見處的數據生態系統。

這項倡議的提出正值矽谷與數據所有者之間的緊張關系瀕臨臨界點之際。各大人工智能公司正面臨著來自圖書作者、藝術傢和編碼員的大量版權訴訟。與此同時,出版商和社交媒體論壇在閉門談判中威脅要扣留數據。

該倡議的探索工具指出,審計並不構成法律建議。Longpre 說,這些工具旨在幫助人們解信息,而不是規定哪種許可是合適的,也不是倡導某種特定的政策或立場。

作為分析的一部分,研究人員還跟蹤各數據集的模式,包括數據的收集年份和數據集創建者的地理位置。約 70% 的數據集創建者來自學術界,約 1% 的數據集創建者來自 Meta 等公司的行業實驗室。最常見的數據來源之一是維基百科,其次是 Reddit 和 Twitter(現在稱為 X)。

《華盛頓郵報》對Google C4 數據集的分析發現,在 1500 萬個域名中,維基百科是排名第二的網站。據《郵報》上周報道,Reddit最近威脅說,如果領先的人工智能公司不付費使用其數據來訓練模型,就會阻止Google和必應的搜索爬蟲,從而面臨搜索流量損失的風險。

與英語國傢和西歐國傢相比,南半球國傢的口語幾乎沒有代表性,數據出處小組的分析為常用數據集的局限性提供新的見解。

但該小組還發現,即使全球南部有語言代表,數據集"幾乎總是來自北美或歐洲的創作者和網絡來源",該小組的論文如是說。

胡克說,她希望該項目的工具能夠揭示未來研究的主要領域。她說:"數據集的創建通常是研究周期中最不光彩的部分,應該得到應有的歸屬,因為這需要大量的工作。我喜歡這篇論文,因為它脾氣暴夠躁,但也提出解決方案。我們必須從某個地方開始"。


相關推薦

2023-02-06

的真人圖片,可能會危及相關聯人的隱私。一些提示導致人工智能復制一張圖片,而不是重繪完全不同的內容。這些重新制作的圖片還可能包含受版權保護的材料。但更糟糕的是,當代人工智能生成模型可以記憶和復制刮來的用

2023-05-11

準實在有點小兒科,有些任務的性能都甩人類一截。通用人工智能(AGI)的一個重要特點是模型具有處理人類水平任務的泛化能力,而依賴於人工數據集的傳統基準測試並不能準確表示人類的能力。最近,微軟的研究人員發佈一

2024-05-08

書2”(books2)的龐大數據集,這些數據集曾用於訓練其GPT-3人工智能(AI)模型。這些文件來自美國作傢協會對OpenAI提起的集體訴訟。美國作傢協會的律師在法庭文件中表示,這些數據集很可能包含“10萬多本已出版書籍”,是該協會

2024-04-24

生成式人工智能以各種方式被越來越多地使用,這引起人們對其可能被敵對分子和團體用來威脅兒童安全的擔憂。谷歌、Meta、OpenAI、微軟和亞馬遜等科技公司今天承諾,將對其人工智能訓練數據中的兒童性虐待材料(CSAM)進行

2023-11-10

用於訓練人工智能模型的數據集存在嚴重缺陷,這已是公開的秘密。圖像語料庫往往以美國和西方為中心,部分原因是在編制數據集時,西方圖像在互聯網上占據主導地位。最近,艾倫人工智能研究所(AllenInstituteforAI)的一項

2024-05-09

人工智能的炒作還是很熱,仿佛全自動駕駛和比人聰明的人工智能就是幾年內的事情。但訓練數據集擴大帶來的回報正在遞減,而用所述數據集所需的算力(能源、成本)又呈指數級增長,再加上更高效的解決方案還沒有出現或

2023-04-20

4月20日消息,過去四個月,人工智能聊天機器人變得越來越受歡迎,它們能夠完成各種任務,比如寫復雜的學術論文和進行緊張的對話,能力很令人驚嘆。聊天機器人並不像人類那樣思考,它們甚至不知道自己在說什麼。它們之

2023-03-27

軟豪華作者團隊發佈的154頁論文指出,GPT-4已經初具通用人工智能的雛形。GPT-4會演變為通用人工智能嗎?Meta首席人工智能科學傢、圖靈獎得主YannLeCun對此表示質疑。在他看來,大模型對於數據和算力的需求實在太大,學習效率

2022-07-06

些骨感 —— 這些復雜模型動輒涉及數百萬個參數,而 AI 研究人員幾乎不可能完全解其運作機理。研究配圖 - 2:神經網絡黑箱模型模擬此外科學傢有時也會通過創建預測的簡單近似模型來簡化解釋,但這些易於理解的近似值,

2024-03-17

近日,來自MITFutureTech的研究人員發表一項關於大模型能力增長速度的研究,結果表明:LLM的能力大約每8個月就會翻一倍,速度遠超摩爾定律!我們人類可能要養不起AI!論文地址:https://arxiv.org/pdf/2403.05812.pdfLLM的能力提升大部

2023-11-30

谷歌的一組研究人員發現,OpenAI旗下的人工智能聊天機器人ChatGPT可以泄露其訓練數據中的敏感信息,比如真人的個人信息。據悉,ChatGPT是OpenAI於2022年11月30日推出的一種新型AI聊天機器人工具,可根據用戶的要求快速生成文章、

2023-12-07

速人類進步和改善生活的機會。我相信我們現在所看到的人工智能轉變將是我們一生中最深刻的轉變,遠遠大於之前向移動或網絡的轉變。人工智能有潛力為世界各地的人們創造從日常生活到非凡的機會。它將帶來新一波的創新

2023-04-20

型照單全收。當地時間周三,《華盛頓郵報》發表與艾倫人工智能研究院合作進行的調查結果,他們拆解谷歌的C4數據集,這也是許多知名英語AI大模型的訓練材料,例如谷歌的T5和Facebook的LLaMA。中國投資者更關註的OpenAI並沒有

2024-01-15

,據國內媒體報道,Meta最近因使用數千本盜版書籍訓練人工智能模型存在法律風險而引發版權侵權訴訟。據悉,Meta使用大量盜版書籍的Books3”數據集訓練其LLAM 1和LLAM 2模型,Meta雖承認使用 Books3 數據集,卻拒絕向作者支付適當