OpenAI和谷歌利用YouTube視頻轉錄來訓練其人工智能模型


據《紐約時報》報道,OpenAI和Google利用從YouTube視頻中轉錄的文本訓練人工智能模型,這可能侵犯創作者的版權。該報道引述許多解這些公司做法的人士的話,描述OpenAI、Google和Meta為最大限度地向其人工智能提供數據所做的努力。

就在幾天前,YouTube 首席執行官尼爾-莫漢(Neal Mohan)在接受彭博社采訪時表示,OpenAI 據稱使用 YouTube 視頻來訓練其新的文本到視頻生成器 Sora 將違反該平臺的政策。

據《紐約時報》報道,OpenAI 使用其 Whisper 語音識別工具轉錄超過 100 萬小時的 YouTube 視頻,然後用於訓練 GPT-4。The Information此前曾報道,OpenAI 曾使用 YouTube 視頻和播客來訓練這兩個人工智能系統。

據報道,OpenAI 總裁格雷格-佈羅克曼(Greg Brockman)也是這個團隊的成員之一。Google發言人馬特-佈萊恩特(Matt Bryant)告訴《紐約時報》,根據Google的規定,"未經授權采集或下載 YouTube 內容"是不被允許的,同時他還表示,公司並不知道 OpenAI 使用過此類內容。

不過,該報道稱,Google有人知道但沒有對 OpenAI 采取行動,因為Google自己也正在使用 YouTube 視頻訓練自己的人工智能模型。但Google告訴《紐約時報》 ,它隻使用同意參加實驗項目的創作者的視頻。

《紐約時報》的報道還稱,Google在 2022 年 6 月調整其隱私政策,以更廣泛地涵蓋使用公開內容(包括Google文檔和Google工作表)來訓練其人工智能模型和產品。佈賴恩特告訴《紐約時報》,隻有在選擇使用Google實驗功能的用戶允許的情況下,Google才會這樣做,而且該公司"並沒有根據這一語言變化開始對其他類型的數據進行訓練"。


相關推薦

2024-04-08

越多,表現就會越好。自那以後,“規模就是一切”成為人工智能行業的信條。2020年11月發佈的GPT-3包含約3000億個Token的訓練數據。2022年,GoogleDeepMind對400個人工智能模型進行測試,其中表現最好的模型(之一),一個名為Chinchi

2023-10-28

向OpenAI競爭對手Anthropic至多投資20億美元。此舉可能促使人工智能領域的初創公司加劇競爭,以爭取首先取得下一個重大突破。知情人士說,谷歌同意先期向Anthropic投資5億美元,並同意隨著時間的推移再增加15億美元。在這筆投

2024-04-10

美元的真金白銀購買這些素材。不隻是Photobucket,Reddit、Youtube等知名網站都成科技巨頭們的瘋搶目標。蘋果為訓練AI買圖片,網友擔憂隱私Photobucket是一個提供影像寄存、視頻寄存、幻燈片制作與照片分享服務網站,成立於2003年

2023-04-05

周二,Alphabet旗下的谷歌公開一些新細節,展示用於訓練人工智能模型的超級計算機,稱其比英偉達A100芯片的系統更快、更節能。谷歌公司設計自己的定制芯片,稱為TensorProcessingUnit(TPU),並將這些芯片應用於90%以上的人工智能

2023-04-05

員當地時間4月4日在線發表一篇論文,首次公佈用於訓練人工智能模型的超級計算機的技術細節,並宣稱該系統比英偉達的超算系統更快且功耗更低。谷歌新發表的這篇題為《TPUv4:用於機器學習的光學可重構超級計算機,硬件

2024-04-17

OpenAI等巨頭的做法並無二致。有媒體報道稱,谷歌曾轉錄YouTube視頻,Meta雇傭承包商總結受版權保護的書籍,Adobe使用Midjourney的AI生成照片,均是為訓練自傢AI模型。

2023-06-30

制來的數據,侵犯作者的版權。據報道,為訓練其強大的人工智能語言模型,OpenAI會利用從網絡收集來的大量數據,這些數據集包括維基百科文章、著名小說、社交媒體帖子等所有內容,而OpenAI沒有要求獲得任何許可。這起在加

2024-04-08

迎刃而解。——Sam Altman不過,這件事真的這麼容易嗎?人工智能研究者們已經研究合成數據多年,但要構建一個能自我訓練的人工智能系統並非易事。專傢發現,模型如果隻依賴於自我生成的數據,可能會不斷重復自己的錯誤

2024-04-12

網上公開可用的數據在大模型面前並不是取之不盡的。據人工智能研究機構Epoch估計,2026年所有高質量可用數據就有可能被耗盡,互聯網生產數據的速度有可能比不上不斷膨脹的大模型的消耗速度。“數據饑渴”的AI公司獲取數

2023-12-05

消息,谷歌的一組研究人員聲稱,他們已經找到獲取OpenAI人工智能聊天機器人ChatGPT部分訓練數據的方法。在最新發表的論文中,谷歌研究人員表示,某些關鍵詞可迫使ChatGPT泄露其所接受訓練數據集的部分內容。他們舉例稱,該

2023-08-17

》日前更新其服務條款,禁止未經許可將其內容用於訓練人工智能系統。通過采取預防措施,阻止其內容被用來訓練人工智能模型。據悉,《紐約時報》8月3日更新其服務條款,禁止將其內容(包括文本、照片、圖像、音頻/視頻

2023-08-17

》日前更新其服務條款,禁止未經許可將其內容用於訓練人工智能系統。通過采取預防措施,阻止其內容被用來訓練人工智能模型。據悉,《紐約時報》8月3日更新其服務條款,禁止將其內容(包括文本、照片、圖像、音頻/視頻

2023-08-16

》日前更新其服務條款,禁止未經許可將其內容用於訓練人工智能系統。通過采取預防措施,阻止其內容被用來訓練人工智能模型。據悉,《紐約時報》8月3日更新其服務條款,禁止將其內容(包括文本、照片、圖像、音頻/視頻

2023-11-11

據報道,多位知情人士今日稱,谷歌正與人工智能(AI)初創公司Character.AI談判,計劃對後者投資數億美元。作為一傢快速增長的人工智能聊天機器人公司,Character.AI目前正在尋求資金,以培訓其AI大模型,並滿足用戶需求。知