OpenAI突然“銷毀”10萬多本書,到底發生什麼?


北京時間5月8日,最新解封的法庭文件顯示,OpenAI刪除兩個名為“圖書1”(books1)和“圖書2”(books2)的龐大數據集,這些數據集曾用於訓練其GPT-3人工智能(AI)模型。

D3277FE1DF57771590C6252302FBFA2A05691DEA_size122_w1200_h800.webp

這些文件來自美國作傢協會對OpenAI提起的集體訴訟。美國作傢協會的律師在法庭文件中表示,這些數據集很可能包含“10萬多本已出版書籍”,是該協會指控OpenAI使用受版權保護的材料來訓練AI模型的關鍵。

幾個月來,美國作傢協會一直尋求從OpenAI獲得有關這些數據集的信息。法律文件顯示,OpenAI最初以保密為由拒絕提供這些數據集的下落,但最終披露已刪除所有數據副本。

高質量的訓練數據是強大AI模型的重要組成部分。目前,這些AI模型正在席卷科技界。OpenAI和其他公司使用互聯網數據來建立這些模型,其中包括許多書籍。許多創造這些數據的公司認為,他們為新的AI產品提供訓練數據,需要獲得報酬。但是,科技公司不想被迫付費。這一爭執已經引發多起官司。

500億個單詞

OpenAI曾在2020年發佈過一份白皮書,將圖書1和圖書2數據集描述為“基於互聯網的圖書語料庫”,並表示它們占據創建GPT-3訓練數據的16%。白皮書還表示,圖書1和圖書2總共包含670億個數據詞元(token),大致相當於500億個單詞。作為比較,《欽定聖經》有783,137個單詞。

最新解封的法庭文件是OpenAI律師的信函,它被標記為“高度機密-僅限律師查看”。信中說,OpenAI已在2021年底停止使用圖書1和圖書2進行模型訓練。由於這些數據集不再使用,它們在2022年年中被刪除。信中還說,用於訓練GPT-3的其他數據都沒有被刪除,並允許美國作傢協會的律師訪問其他數據集。

該文件還顯示,創建圖書1和圖書2的兩名研究人員已不再受雇於OpenAI。OpenAI最初拒絕透露這兩名員工的身份,隨後向美國作傢協會的律師確認這些員工的身份,但沒有公開披露他們的姓名。OpenAI已經請求法院對這兩名員工的姓名以及有關數據集的信息保密。美國作傢協會對此表示反對,認為公眾有知情權。目前,爭議仍在繼續。

OpenAI周二在一份聲明中表示:“驅動當前ChatGPT和應用程序接口的模型不是使用這些數據集開發的。這些數據集是由OpenAI前員工創建的,最後一次使用是在2021年,並在2022年因未使用而被刪除。”


相關推薦

2023-11-18

man)在經過明顯的不信任投票後,被公司董事會趕出他在OpenAI的首席執行官職位,這或許是今年最出人意料的科技新聞。今天下午發佈的一份新聞稿的原話是阿爾特曼的"離職是在董事會的審議審查過程之後進行的,其

2023-11-18

今日,OpenAI首席執行官SamAltman被免去首席執行官一職。隨後,公司總裁GregBrockman也宣佈辭職。風波背後,到底發生什麼?一文梳理時間線:11月2日:當團隊展示下一個重大進步時,Altman就在房間裡。在OpenAl歷史上的3次之前,最

2023-06-30

微信的手續費又惹上事兒!由於微信支付將收取0.6%的手續費,近期,全國多傢高校發佈公告稱,自7月1日起開始暫停使用微信支付。參與的高校還不少,包括西北大學、鄭州輕工業大學、南京理工、周口師范學院、江蘇師范大學

2023-11-18

過。他稱仍在努力弄清楚到底發生什麼。當地時間周五,OpenAI宣佈,山姆·奧特曼(SamAltman)將辭去首席執行官一職,並退出董事會,首席技術官米拉·穆拉蒂(MiraMurati)將擔任臨時首席執行官,立即生效。受此消息影響,OpenAI

2022-10-03

史新低。近日,瑞士信貸(CreditSuisseAG,下稱“瑞信”)突然成為全球市場的焦點。這傢瑞士第二大銀行開始為生存而戰,股價周一再創新低,有關未來破產的猜測愈演愈烈。市場甚至擔心瑞信可能重蹈2008年9月美國雷曼兄弟銀

2023-11-19

在周末的夢鄉裡和周公約會,AI界卻已經發生一場巨變:OpenAI創始人,人稱ChatGPT之父的奧特曼(SamAltman)被自己一手創辦的公司給“優化”。轉而由首席技術官米拉·穆拉蒂(MiraMurati)擔任臨時CEO。同時,此前的董事會主席格雷

2023-04-01

AI根據這個上下文進行輸出,這個就叫In-contex learning,是OpenAI訓練模型的具體手段。具體的原理目前恐怕一時半會兒解釋不清楚,但從GPT-3的論文標題《Language Models are Few-Shot Learners》我們就能知道結果很明顯:好用。到GPT-4,它

2023-02-14

北京時間2月14日消息,當地時間周一,許多用戶發現,Twitter老板埃隆·馬斯克(ElonMusk)的推文在他們的信息流中瘋狂刷屏。當用戶打開Twitter主頁時,到處都是馬斯克的推文和回復。有趣的是,上周剛剛有報道稱,馬斯克專門召集T

2023-03-27

而且他自己清楚這一點。”面對馬斯克的持續公開批評,OpenAI創始人兼CEO艾特曼(SamAltman)終於打破沉默,站出來一一回應馬斯克的指責。馬斯克原本是ChatGPT的最大支持者和發起者,還捐1億美元,他又是怎麼和OpenAI分道揚鑣乃

2023-11-19

1天時間,OpenAI董事會大變臉。最新消息,他們意在讓奧特曼重返CEO職位。多方消息顯示,因為“投資人的怒火”,OpenAI董事會才在一天時間裡來個大反轉。微軟CEO納德拉被曝在得知奧特曼離職後“非常憤怒”,他一直在和奧特

2022-10-02

潮預警,也是首次寒潮預警和高溫預警同時發佈。那麼,到底是冷還是熱?據氣象專傢解釋,預計今明兩天,強冷空氣主要活動於北方地區,同時由於副高西伸,江漢、江淮、江南、華南北部等地仍有大范圍的高溫天氣。因此,

2022-08-01

什麼會“中暑”呢?又該怎麼預防呢?01空調“中暑”,到底發生什麼?要解釋這個問題,就得先簡單解一下空調制冷的原理。我們都打過針抽過血,消毒的時候酒精棉消個毒,會感覺皮膚上面涼颼颼的,這是因為液體的酒精揮

2023-11-19

都不敢這麼拍。當地時間11月17日,在一個視頻會議上,OpenAI的董事會突然宣佈,聯合創始人兼CEOSamAltman即刻離職,ChatGPT開發的關鍵人物GregBrockman也被罷免,公司CTOMiraMurati則被任命為臨時CEO。在一篇發表在 X 上的帖子中,Sam Altma

2022-09-06

創收一波。飽受韓國人喜歡的韓國 LUNA 加密幣今年也突然崩盤,原本 400 億美元的項目,最後幣價跌到趨近為 0 ,影響上萬韓國人,有人炒幣炒到傢破人亡,就幹脆從麻浦大橋上一躍而下,結束生命。橋上的 “ 再振作一次