北京時間5月8日,最新解封的法庭文件顯示,OpenAI刪除兩個名為“圖書1”(books1)和“圖書2”(books2)的龐大數據集,這些數據集曾用於訓練其GPT-3人工智能(AI)模型。
這些文件來自美國作傢協會對OpenAI提起的集體訴訟。美國作傢協會的律師在法庭文件中表示,這些數據集很可能包含“10萬多本已出版書籍”,是該協會指控OpenAI使用受版權保護的材料來訓練AI模型的關鍵。
幾個月來,美國作傢協會一直尋求從OpenAI獲得有關這些數據集的信息。法律文件顯示,OpenAI最初以保密為由拒絕提供這些數據集的下落,但最終披露已刪除所有數據副本。
高質量的訓練數據是強大AI模型的重要組成部分。目前,這些AI模型正在席卷科技界。OpenAI和其他公司使用互聯網數據來建立這些模型,其中包括許多書籍。許多創造這些數據的公司認為,他們為新的AI產品提供訓練數據,需要獲得報酬。但是,科技公司不想被迫付費。這一爭執已經引發多起官司。
500億個單詞
OpenAI曾在2020年發佈過一份白皮書,將圖書1和圖書2數據集描述為“基於互聯網的圖書語料庫”,並表示它們占據創建GPT-3訓練數據的16%。白皮書還表示,圖書1和圖書2總共包含670億個數據詞元(token),大致相當於500億個單詞。作為比較,《欽定聖經》有783,137個單詞。
最新解封的法庭文件是OpenAI律師的信函,它被標記為“高度機密-僅限律師查看”。信中說,OpenAI已在2021年底停止使用圖書1和圖書2進行模型訓練。由於這些數據集不再使用,它們在2022年年中被刪除。信中還說,用於訓練GPT-3的其他數據都沒有被刪除,並允許美國作傢協會的律師訪問其他數據集。
該文件還顯示,創建圖書1和圖書2的兩名研究人員已不再受雇於OpenAI。OpenAI最初拒絕透露這兩名員工的身份,隨後向美國作傢協會的律師確認這些員工的身份,但沒有公開披露他們的姓名。OpenAI已經請求法院對這兩名員工的姓名以及有關數據集的信息保密。美國作傢協會對此表示反對,認為公眾有知情權。目前,爭議仍在繼續。
OpenAI周二在一份聲明中表示:“驅動當前ChatGPT和應用程序接口的模型不是使用這些數據集開發的。這些數據集是由OpenAI前員工創建的,最後一次使用是在2021年,並在2022年因未使用而被刪除。”