OpenAI和谷歌利用YouTube視頻轉錄來訓練其人工智能模型

2024-04-07 發表於業界精選

據《紐約時報》報道，OpenAI和Google利用從YouTube視頻中轉錄的文本訓練人工智能模型，這可能侵犯創作者的版權。該報道引述許多解這些公司做法的人士的話，描述OpenAI、Google和Meta為最大限度地向其人工智能提供數據所做的努力。

就在幾天前，YouTube 首席執行官尼爾-莫漢（Neal Mohan）在接受彭博社采訪時表示，OpenAI 據稱使用 YouTube 視頻來訓練其新的文本到視頻生成器 Sora 將違反該平臺的政策。

據《紐約時報》報道，OpenAI 使用其 Whisper 語音識別工具轉錄超過 100 萬小時的 YouTube 視頻，然後用於訓練 GPT-4。The Information此前曾報道，OpenAI 曾使用 YouTube 視頻和播客來訓練這兩個人工智能系統。

據報道，OpenAI 總裁格雷格-佈羅克曼（Greg Brockman）也是這個團隊的成員之一。Google發言人馬特-佈萊恩特（Matt Bryant）告訴《紐約時報》，根據Google的規定，"未經授權采集或下載 YouTube 內容"是不被允許的，同時他還表示，公司並不知道 OpenAI 使用過此類內容。

不過，該報道稱，Google有人知道但沒有對 OpenAI 采取行動，因為Google自己也正在使用 YouTube 視頻訓練自己的人工智能模型。但Google告訴《紐約時報》，它隻使用同意參加實驗項目的創作者的視頻。

《紐約時報》的報道還稱，Google在 2022 年 6 月調整其隱私政策，以更廣泛地涵蓋使用公開內容（包括Google文檔和Google工作表）來訓練其人工智能模型和產品。佈賴恩特告訴《紐約時報》，隻有在選擇使用Google實驗功能的用戶允許的情況下，Google才會這樣做，而且該公司"並沒有根據這一語言變化開始對其他類型的數據進行訓練"。

OpenAI和谷歌利用YouTube視頻轉錄來訓練其人工智能模型

相關推薦

AI產業的灰暗面：OpenAI、谷歌、Meta如何獲取訓練語料

傳谷歌同意向OpenAI競爭對手Anthropic至多投資20億美元

科技巨頭狂撒千億美元 “買照片” 隻為訓練AI模型？

谷歌公佈新一代AI超算稱比英偉達A100更快、更節能

谷歌首次公佈AI超級計算機技術細節希望擺脫英偉達芯片依賴

AI行業公開的秘密：都在抄作業

OpenAI被控非法使用圖書數據來訓練ChatGPT

你的自拍和聊天記錄正被矽谷大廠砸數十億美元瘋搶

給AI當“奶媽”，是天涯們的生路嗎？

研究人員稱重復某些關鍵詞可讓ChatGPT自曝訓練數據 OpenAI：違反服務條款

《紐約時報》更新條款禁止使用其內容訓練人工智能模型

《紐約時報》更新條款禁止使用其內容訓練人工智能模型

《紐約時報》更新條款禁止使用其內容訓練人工智能模型

谷歌據稱將對AI創企Character.AI投資數億美元