OpenAI突然“銷毀”10萬多本書，到底發生什麼？

2024-05-08 來自鳳凰網科技發表於業界精選

北京時間5月8日，最新解封的法庭文件顯示，OpenAI刪除兩個名為“圖書1”(books1)和“圖書2”(books2)的龐大數據集，這些數據集曾用於訓練其GPT-3人工智能(AI)模型。

D3277FE1DF57771590C6252302FBFA2A05691DEA_size122_w1200_h800.webp

這些文件來自美國作傢協會對OpenAI提起的集體訴訟。美國作傢協會的律師在法庭文件中表示，這些數據集很可能包含“10萬多本已出版書籍”，是該協會指控OpenAI使用受版權保護的材料來訓練AI模型的關鍵。

幾個月來，美國作傢協會一直尋求從OpenAI獲得有關這些數據集的信息。法律文件顯示，OpenAI最初以保密為由拒絕提供這些數據集的下落，但最終披露已刪除所有數據副本。

高質量的訓練數據是強大AI模型的重要組成部分。目前，這些AI模型正在席卷科技界。OpenAI和其他公司使用互聯網數據來建立這些模型，其中包括許多書籍。許多創造這些數據的公司認為，他們為新的AI產品提供訓練數據，需要獲得報酬。但是，科技公司不想被迫付費。這一爭執已經引發多起官司。

500億個單詞

OpenAI曾在2020年發佈過一份白皮書，將圖書1和圖書2數據集描述為“基於互聯網的圖書語料庫”，並表示它們占據創建GPT-3訓練數據的16%。白皮書還表示，圖書1和圖書2總共包含670億個數據詞元(token)，大致相當於500億個單詞。作為比較，《欽定聖經》有783,137個單詞。

最新解封的法庭文件是OpenAI律師的信函，它被標記為“高度機密-僅限律師查看”。信中說，OpenAI已在2021年底停止使用圖書1和圖書2進行模型訓練。由於這些數據集不再使用，它們在2022年年中被刪除。信中還說，用於訓練GPT-3的其他數據都沒有被刪除，並允許美國作傢協會的律師訪問其他數據集。

該文件還顯示，創建圖書1和圖書2的兩名研究人員已不再受雇於OpenAI。OpenAI最初拒絕透露這兩名員工的身份，隨後向美國作傢協會的律師確認這些員工的身份，但沒有公開披露他們的姓名。OpenAI已經請求法院對這兩名員工的姓名以及有關數據集的信息保密。美國作傢協會對此表示反對，認為公眾有知情權。目前，爭議仍在繼續。

OpenAI周二在一份聲明中表示：“驅動當前ChatGPT和應用程序接口的模型不是使用這些數據集開發的。這些數據集是由OpenAI前員工創建的，最後一次使用是在2021年，並在2022年因未使用而被刪除。”

OpenAI突然“銷毀”10萬多本書，到底發生什麼？

相關推薦

業內八卦：OpenAI這傢世界上最受矚目的公司到底發生什麼？

CEO和總裁被罷免背後 OpenAI到底發生什麼？一文梳理時間線

突然多所高校停用微信支付！到底發生什麼？微信官方回應來

OpenAI董事會大變動新CEO什麼來路？

被傳或重蹈雷曼兄弟倒臺覆轍這傢國際大行到底發生什麼

OpenAI開掉最能搞錢的創始人 GPT在他手裡可能失控？

讓AI說中文，總共分幾步？

推特“滿屏盡是馬斯克”，到底發生什麼？

馬斯克為什麼不爽OpenAI？親自接管被拒負氣甩手走人

1天時間內OpenAI董事會大變臉解雇奧特曼大戲背後發生什麼？

寒潮與高溫預警第一次同時發佈發生什麼？

空調竟然也會“中暑” 到底發生什麼？

全人類最擔心的“AI安全”，害Sam Altman最終“失業”

AI奪走的第一份工作竟是OpenAI CEO？馬斯克掛出“求職申請鏈接”湊熱鬧