科技巨頭狂撒千億美元 “買照片” 隻為訓練AI模型？

2024-04-10 來自鎂客網發表於業界精選

你能想象，那些被遺忘在網盤的陳年老圖，有朝一日能價值千金？就在最近，路透社報道稱，蘋果公司正與圖像托管網站Photobucket協商，希望得到這傢公司近130億張照片、視頻組成的龐大圖像庫，並以此來訓練AI模型。蘋果不是這傢網站的唯一買傢，其他矽谷大廠們都在尋求與之達成協議。而這些巨頭們也毫不吝嗇，甚至願意掏出數十億美元的真金白銀購買這些素材。

不隻是Photobucket，Reddit、Youtube等知名網站都成科技巨頭們的瘋搶目標。

蘋果為訓練AI買圖片，網友擔憂隱私

Photobucket是一個提供影像寄存、視頻寄存、幻燈片制作與照片分享服務網站，成立於2003年。在當時，用戶把這個網站當作個人相冊，與功能與現在流行的在線相冊非常相似。

在巔峰期，該網站曾擁有7000萬用戶。而到2007年，Photobucket就聲稱已有超過28億張圖像上傳到其網站。不過隨著越來越多的功能更強大的在線相冊App出現之後，這種網站式的在線相冊也逐漸失去熱度。

不過畢竟是一傢成立二十多年的網站，別的不說，數據是真的多，130億張圖片與視頻，足夠AI模型消化很久。

據悉，蘋果購買的圖片的主要目的就是提高生成式AI的水平。

除此之外，蘋果公司在早些時候與另一傢圖片素材網站Shutterstock達成數百萬張圖片的授權協議，據悉這筆交易的價值在2500萬美元到5000萬美元之間。

隨著今年6月份WWDC大會日益臨近，每個人都在期待蘋果公司能帶來“令人驚嘆”的AI功能。

但和上筆交易不同，不少網友開始為隱私擔心。有人評論表示，Photobucket的圖片來源都是基於網友的“托管，這就意外著這些圖片雖然已經是陳年老圖，但仍屬於用戶的個人秘密。

而Shutterstock的數據大多是免版稅的圖片、矢量圖和插圖庫，包括影片剪輯以及音樂曲目，本身就可以授權給用戶使用。這麼一對比，網友對於Photobucket的數據隱私安全問題也可以理解。

除涉及隱私以外，不少網友還對這些庫存照片的質量提出質疑。如果給AI喂食這些本來就帶有錯誤的圖片，那麼是否會生成質量更低的圖片呢？

總之，就蘋果購買Photobucket圖片的行為，大多數網友並不贊同。

但即使冒著泄露隱私的風險，蘋果和其他公司們還是得“鋌而走險”搞來這些數據。主要原因還是高質量的互聯網數據，可能沒幾年就要耗盡。

其實早在多年前，各大科技巨頭就已經碰到訓練語料缺失的瓶頸。

據《紐約時報》報道，OpenAI在訓練GPT-4時，就曾遇到英文文本資料缺失的情況。

為處理這個問題，OpenAI推出一款名為Whisper語音識別工具，用來轉錄Google旗下視頻平臺Youtube的視頻音頻，生成大量的對話文本。

據報道稱，這款工具以開源的名義轉錄超過一百萬小時的Youtube視頻，實際上已經違反Youtube的隱私規則，而這些資料也成為ChatGPT的基礎。

這並不是OpenAI第一次因為偷扒數據犯錯。包括《紐約時報》在內，多傢數字新聞媒體對OpenAI提起版權侵權訴訟，認為他們的數千篇報道被OpenAI用來訓練ChatGPT。

當然，通過“爬蟲”等手段搜刮訓練數據的科技公司不止OpenAI這一傢，“受害者”Google也曾通過修改服務條款的方式，將“使用公開信息訓練AI模型”偷偷寫進隱私細則中，從而允許工程師們利用公開的文檔、在線資料等開發AI產品。

不過隨著OpenAI在版權問題上越陷越深，其他科技巨頭也隻能乖乖掏錢為訓練數據付費。

至少比起互聯網上免費抓取的數據，Photobucket近130億的數據量還是相對來說質量更高點。

花錢買數據，或許還不夠

可怕的是，即便是130億的數據量，也可能喂不飽現在的AI的模型。

研究機構Epoch直白地表示，現在科技公司使用數據的速度已經超過數據生產的速度，這些公司最快會在2026年就耗盡互聯網上的高質量數據。

有數據統計，在2020年11月發佈的GPT-3上，使用3000億個Token的訓練數據。而到2024年，GooglePaLM 2的訓練數據量則達到3.6萬億個Token。

數據量是一回事，數據的質量更是直接影響AI大模型的生成能力。正如網友所擔憂的那樣，低質量的數據甚至可能讓AI陷入不可逆轉的方向。

面對這樣的問題，OpenAI開始嘗試使用合成數據（AI生成的數據）來訓練AI。這樣既可以減少對受版權保護數據的依賴，同時也能訓練出更強大的結果。

對此OpenAI和一系列機構開始研究使用兩個不同的模型來生成更有用、更可靠的合成數據，其中一個模型用來生成數據，另一個則用來對生成的數據進行審核。

不隻是OpenAI，英偉達很早就在用合成數據彌補現實世界的數據。在2021年11月，英偉達對外推出合成數據生成引擎Omniverse Replicator 。

英偉達將其描述為“用於生成具有基本事實的合成數據以訓練 AI 網絡的引擎”，其作用就是用來訓練AI。

此產品推出後，由該引擎生成的合成數據在自動駕駛、機器人等多個場景裡都得到驗證，因此英偉達也在近些年希望將其推廣到更多領域，包括聊天機器人。

然而，合成數據在工業場景裡的成功案例，並不代表在其他領域都能遵循物理規律。

有時候AI連真實圖片都無法理解，更不要說理解二次生成的圖片。

科技巨頭狂撒千億美元 “買照片” 隻為訓練AI模型？

相關推薦

你的自拍和聊天記錄正被矽谷大廠砸數十億美元瘋搶

英偉達最新AI芯片H200或將成為其史上最賺錢產品之一

安德森霍茨站隊科技巨頭：訓練AI的版權內容不能收費

AI行業公開的秘密：都在抄作業

AI行業買英偉達GPU 花的錢比賺的多17倍有人卻表示很合理

國產AI大模型ChatGLM開測：為中文優化、支持國產CPU訓練

AI前哨｜狂撒1萬億隻“蒙對”一傢，孫正義的AI狂言還能信嗎？

摩爾線程MTT S4000組成千卡集群“誇娥” 可訓練千億參數大模型

最強AI芯片WSE-3發佈：4萬億個晶體管，90萬核，125 PetaFLOPS算力

GPU巨頭AMD股價暴漲近10% AI芯片領域“一超一強”格局漸明

ChatGPT火遍全球谷歌頂級AI人才組團叛逃OpenAI

全球AI大模型現狀：日本幾乎“錯過一切” 韓國隻有財閥巨頭

近300億，又一傢超級獨角獸誕生

AI外包正轉向歐美地區尋找各類專業人才訓練大模型