據《紐約時報》報道,OpenAI和Google利用從YouTube視頻中轉錄的文本訓練人工智能模型,這可能侵犯創作者的版權。該報道引述許多解這些公司做法的人士的話,描述OpenAI、Google和Meta為最大限度地向其人工智能提供數據所做的努力。
就在幾天前,YouTube 首席執行官尼爾-莫漢(Neal Mohan)在接受彭博社采訪時表示,OpenAI 據稱使用 YouTube 視頻來訓練其新的文本到視頻生成器 Sora 將違反該平臺的政策。
據《紐約時報》報道,OpenAI 使用其 Whisper 語音識別工具轉錄超過 100 萬小時的 YouTube 視頻,然後用於訓練 GPT-4。The Information此前曾報道,OpenAI 曾使用 YouTube 視頻和播客來訓練這兩個人工智能系統。
據報道,OpenAI 總裁格雷格-佈羅克曼(Greg Brockman)也是這個團隊的成員之一。Google發言人馬特-佈萊恩特(Matt Bryant)告訴《紐約時報》,根據Google的規定,"未經授權采集或下載 YouTube 內容"是不被允許的,同時他還表示,公司並不知道 OpenAI 使用過此類內容。
不過,該報道稱,Google有人知道但沒有對 OpenAI 采取行動,因為Google自己也正在使用 YouTube 視頻訓練自己的人工智能模型。但Google告訴《紐約時報》 ,它隻使用同意參加實驗項目的創作者的視頻。
《紐約時報》的報道還稱,Google在 2022 年 6 月調整其隱私政策,以更廣泛地涵蓋使用公開內容(包括Google文檔和Google工作表)來訓練其人工智能模型和產品。佈賴恩特告訴《紐約時報》,隻有在選擇使用Google實驗功能的用戶允許的情況下,Google才會這樣做,而且該公司"並沒有根據這一語言變化開始對其他類型的數據進行訓練"。