AI產業的灰暗面:OpenAI、谷歌、Meta如何獲取訓練語料


種種跡象顯示,目前站在全世界AI領域潮頭浪尖的這些公司,早在幾年前就已經陷入對訓練語料的“絕望”追逐中——為此他們不惜修改政策條款、無視互聯網信息的使用規則,隻為讓自傢的產品更加先進一些。

《紐約時報》在本周末刊發的調查報道中,揭露OpenAI、Google、Meta等公司為獲取訓練語料所采取的一些“走捷徑”措施,同時也展現整個行業迫在眉睫的困境。

美國科技巨頭各走“捷徑”

2021年末,正在訓練GPT-4的OpenAI遇到一個棘手的問題,公司已經耗盡互聯網上所有可靠的英文文本資源,而他們需要更多、更大規模的數據來訓練更強大的模型。

為處理這個問題,OpenAI的Whisper語音識別工具誕生——用來轉錄Google旗下視頻平臺Youtube的視頻音頻,生成大量的對話文本。

報道稱,包括OpenAI總裁佈洛克曼在內的團隊總共轉錄超過一百萬小時的Youtube視頻。隨後這些資料被輸入到GPT-4系統中,並成為聊天機器人ChatGPT的基礎。

根據Google的政策,禁止用戶將平臺上的視頻用於“獨立”應用,同時禁止通過任何自動化手段(爬蟲等)訪問其視頻。

有趣的是,在OpenAI偷偷扒Youtube視頻時,Google也在轉錄自傢流媒體平臺的內容訓練大模型——同樣冒著侵犯版權的風險。正因如此,雖然有Google員工知道OpenAI在這麼幹,也沒有出手阻止。因為一旦Google對OpenAI提出抗議,也有可能“引火燒身”到自己身上。

對於是否采用Youtube視頻訓練AI的詢問,OpenAI方面回應稱,他們使用“多個來源”的數據。Google發言人Matt Bryant則表示,公司對OpenAI的行為一無所知,且禁止任何人“未經授權抓取或下載Youtube視頻”。不過Bryant也表示,公司隻會在有明確法律、技術依據時才會采取行動

Google自傢的條款,則允許平臺使用這些視頻開發視頻平臺的新功能,但這樣的措辭是否意味著Google能用這些資料開發商用AI,也存在不小的疑問。

與此同時,Meta的內部會議紀要顯示,工程師和產品經理討論購買美國大型出版商Simon & Schuster以獲取長文本資料的計劃,另外他們還討論從互聯網上收集受版權保護的內容,並表示“與出版商、藝術傢、音樂傢和新聞行業談判授權需要的時間太多”。

據悉,有Meta的高管表示,OpenAI似乎正在使用受版權保護的材料,所以公司也可以遵循這個“市場先例”

更顯性的變化是,Google去年修改服務條款。根據內部資料顯示,推動隱私政策變化的動機之一,包括允許Google利用公開的Google文檔、Google地圖上的餐廳評論,以及更多在線資料開發AI產品。最終Google趕在美國國慶節(7月4日)放假前的7月1日發佈修改後的隱私條款,將“使用公開信息訓練AI模型”首次納入其中。

Bryant回應稱,公司不會在沒有用戶“明確許可”的情況下使用他們的Google文檔來訓練AI,這裡指的是自願參與的實驗性功能體驗計劃。

即便如此還是不夠

正因為這些操作,近些年來伴隨著人們對AI能力的驚嘆,越來越多的版權方也開始意識到自己的數據被偷偷拿走訓練AI。包括《紐約時報》、一些電影制作人和作傢已經將這些科技公司告上法庭,美國著作權局也正在制定版權法在AI時代的適用指南。

問題在於,即便一些作傢、制片人將科技公司的行為稱為“美國史上最大盜竊案”,科技公司用來發展下一代AI的數據依然還是不夠。

2020年初,約翰霍普金斯大學的理論物理學傢(現Anthropic首席科學官)Jared Kaplan發佈一篇論文,明確表示訓練大語言模型用的數據越多,表現就會越好。自那以後,“規模就是一切”成為人工智能行業的信條。

2020年11月發佈的GPT-3包含約3000億個Token的訓練數據。2022年,GoogleDeepMind對400個人工智能模型進行測試,其中表現最好的模型(之一),一個名為Chinchilla的模型用1.4萬億個Token的數據。到2023年,中國科學傢開發的Skywork大模型在訓練中使用3.2萬億個英文和中文Token,GooglePaLM 2的訓練數據量則達到3.6萬億個Token。

研究機構Epoch直白地表示,現在科技公司使用數據的速度已經超過數據生產的速度,這些公司最快會在2026年就耗盡互聯網上的高質量數據。

面對這樣的問題,奧爾特曼已經提出一種解決方法:像OpenAI這樣的公司,最終會轉向使用AI生成的數據(也被稱為合成數據)來訓練AI。這樣開發人員在創建愈發強大的技術同時,也會減少對受版權保護數據的依賴。

目前OpenAI和一系列機構也正在研究使用兩個不同的模型,能否共同生成更有用、更可靠的合成數據——一個系統產生數據,另一個系統對信息進行評判。當然,這種技術路徑是否可行,目前仍存爭議。

前 OpenAI 研究員Jeff Clune認為,這些AI系統所需的數據就像是穿越叢林的路徑,如果這些公司隻是在合成數據上訓練,AI可能會在叢林裡迷失。


相關推薦

2024-05-01

Raw Story和AlterNet也對微軟和OpenAI發起類似的訴訟。新聞行業的律師Steven Lieberman評論稱,OpenAI的巨大成功也要歸功於其他人的工作,它在未經許可或付款的情況下獲取大量優質內容。《紐約時報》本月揭露稱,OpenAI、谷歌、Meta等

2023-02-21

能力的全部技術路徑。這條路徑的走通,為國內學術界和產業界提供重要經驗,將助力大語言模型的進一步探索和應用。邱錫鵬表示:“盡管MOSS還有很大改善空間,但它的問世證明在開發類ChatGPT產品的路上,國內科研團隊有能

2023-02-10

、深度學習框架,大模型以及最上層的搜索等應用。擁有產業級知識增強文心大模型ERNIE,具備跨模態、跨語言的深度語言語義理解與生成能力。同樣的,騰訊也有類似混元AI大模型,在此基礎上,騰訊推出HunYuan-NLP 1T大模型並一

2024-05-07

的一般模式。研究人員已經研究並記錄下一個token預測在獲取語言、世界知識和推理能力方面的局限性。新研究的假設是 “訓練語言模型同時預測多個未來token會導致更高的樣本效率”。多token預測指示 LLM 同時預測訓練語料庫中

2023-02-14

實上,整件事情就像一個未知外星生命形式。作為一名專業的認知心理學傢,與成人和兒童一起工作 30 年,我從未為這種精神錯亂做好準備:如果我們認為自己將永遠完全理解這些系統,那就是在自欺欺人,如果認為我們將使

2023-03-28

息息相關;另一方面,包括芯片、雲計算、高質量數據等產業基礎,模型構架和算法經驗,以及用戶群體、社會文化又共同決定所在國傢AI大模型的發展高度。就如同比爾·蓋茨將ChatGPT的發佈比作互聯網的發明,並認為它可以改

2023-11-09

熱衷於沖上各種榜單。大模型相關的榜單很多,學術圈、產業界、媒體智庫、開源社區,都在今年推出各種各樣的評測榜單。這其中,國內廠商常常引用的是SuperCLUE和C-Eval,這倆都由國人自己推出。5月6日科大訊飛發佈星火認知

2023-11-14

上周,SamAltman在OpenAI首屆開發者大會放“大招”,而馬斯克,OpenAI曾經的聯合創始人,更是連夜發佈他新創辦的AI公司xAI的首款產品Grok——一款對標ChatGPT的聊天機器人。隨著Grok內測版的發佈,馬斯克真正進入生成式AI這條目前

2023-02-16

大力出奇跡’”在李笛看來,就ChatGPT而言,“它不會對產業產生顛覆性影響,但大模型則會。”2016年前,小模型是人工智能理解人類語言的主流技術,下圍棋或機器翻譯等某一個具體任務,標註好數據,進入模型訓練。但小模

2023-11-08

AI的行業競爭中占據著明顯的領先優勢。向來習慣引領行業的馬斯克,這一次隻能不甘心地扮演追趕者的角色。創辦兩個月就發新品過去這個周末,馬斯克的新品發佈又雙叒叕占據媒體聚焦。這位全球首富創辦與運營著數傢公司

2024-03-18

如果全世界隻有一傢公司能趕超OpenAI,那Google應該是第一。最近,Google重磅發佈一篇論文報告,裡面提出一種名為“模型竊取”的技術。通過模型竊取技術,Google成功破解ChatGPT基礎模型Ada和Babbage的投影矩陣,甚至連內部隱藏維

2023-04-25

I平臺的關鍵,是法律上的問題。如果未來歐盟想要推動AI產業的結構化,那麼這種類似的開源平臺是必不可少的。

2022-08-08

能!他真正理解現實的本質。不過LeCun謙虛表示,這隻是訓練它的文本數據的原因而已。好吧,這隻是表明,在給BlenderBot3訓練的文本數據中(這是媒體和公眾意見的反映)。“精分”AI機器人?8月5日,Meta一推出“史上最強聊天

2023-05-11

佛又給Google的支持者們打一針強心劑。此前,因為微軟和OpenAI的優異表現,Google已經被唱衰很久。但是,畢竟是做出眾多奠基性工作的AI老牌公司,Google這一輪的發力,讓我們精神一振——它隻是慢,並不是噶。對打GPT-4的PaLM 2