科技巨頭狂撒千億美元 “買照片” 隻為訓練AI模型?


你能想象,那些被遺忘在網盤的陳年老圖,有朝一日能價值千金?就在最近,路透社報道稱,蘋果公司正與圖像托管網站Photobucket協商,希望得到這傢公司近130億張照片、視頻組成的龐大圖像庫,並以此來訓練AI模型。蘋果不是這傢網站的唯一買傢,其他矽谷大廠們都在尋求與之達成協議。而這些巨頭們也毫不吝嗇,甚至願意掏出數十億美元的真金白銀購買這些素材。

不隻是Photobucket,Reddit、Youtube等知名網站都成科技巨頭們的瘋搶目標。

蘋果為訓練AI買圖片,網友擔憂隱私

Photobucket是一個提供影像寄存、視頻寄存、幻燈片制作與照片分享服務網站,成立於2003年。在當時,用戶把這個網站當作個人相冊,與功能與現在流行的在線相冊非常相似。

在巔峰期,該網站曾擁有7000萬用戶。而到2007年,Photobucket就聲稱已有超過28億張圖像上傳到其網站。不過隨著越來越多的功能更強大的在線相冊App出現之後,這種網站式的在線相冊也逐漸失去熱度。

不過畢竟是一傢成立二十多年的網站,別的不說,數據是真的多,130億張圖片與視頻,足夠AI模型消化很久。

據悉,蘋果購買的圖片的主要目的就是提高生成式AI的水平

除此之外,蘋果公司在早些時候與另一傢圖片素材網站Shutterstock達成數百萬張圖片的授權協議,據悉這筆交易的價值在2500萬美元到5000萬美元之間。

隨著 今年6月份WWDC大會日益臨近,每個人都在期待蘋果公司能帶來“令人驚嘆”的AI功能。

但和上筆交易不同,不少網友開始為隱私擔心。有人評論表示,Photobucket的圖片來源都是基於網友的“托管,這就意外著這些圖片雖然已經是陳年老圖,但仍屬於用戶的個人秘密。

而Shutterstock的數據大多是免版稅的圖片、矢量圖和插圖庫,包括影片剪輯以及音樂曲目,本身就可以授權給用戶使用。這麼一對比,網友對於Photobucket的數據隱私安全問題也可以理解。

除涉及隱私以外,不少網友還對這些庫存照片的質量提出質疑。如果給AI喂食這些本來就帶有錯誤的圖片,那麼是否會生成質量更低的圖片呢?


總之,就蘋果購買Photobucket圖片的行為,大多數網友並不贊同。

但即使冒著泄露隱私的風險,蘋果和其他公司們還是得“鋌而走險”搞來這些數據。主要原因還是高質量的互聯網數據,可能沒幾年就要耗盡。

其實早在多年前,各大科技巨頭就已經碰到訓練語料缺失的瓶頸。

據《紐約時報》報道,OpenAI在訓練GPT-4時,就曾遇到英文文本資料缺失的情況。

為處理這個問題,OpenAI推出一款名為Whisper語音識別工具,用來轉錄Google旗下視頻平臺Youtube的視頻音頻,生成大量的對話文本。


據報道稱,這款工具以開源的名義轉錄超過一百萬小時的Youtube視頻,實際上已經違反Youtube的隱私規則,而這些資料也成為ChatGPT的基礎。

這並不是OpenAI第一次因為偷扒數據犯錯。包括《紐約時報》在內,多傢數字新聞媒體對OpenAI提起版權侵權訴訟,認為他們的數千篇報道被OpenAI用來訓練ChatGPT。

當然,通過“爬蟲”等手段搜刮訓練數據的科技公司不止OpenAI這一傢,“受害者”Google也曾通過修改服務條款的方式,將“使用公開信息訓練AI模型”偷偷寫進隱私細則中,從而允許工程師們利用公開的文檔、在線資料等開發AI產品。

不過隨著OpenAI在版權問題上越陷越深,其他科技巨頭也隻能乖乖掏錢為訓練數據付費

至少比起互聯網上免費抓取的數據,Photobucket近130億的數據量還是相對來說質量更高點。

花錢買數據,或許還不夠

可怕的是,即便是130億的數據量,也可能喂不飽現在的AI的模型。

研究機構Epoch直白地表示,現在科技公司使用數據的速度已經超過數據生產的速度,這些公司最快會在2026年就耗盡互聯網上的高質量數據。


有數據統計,在2020年11月發佈的GPT-3上,使用3000億個Token的訓練數據。而到2024年,GooglePaLM 2的訓練數據量則達到3.6萬億個Token。

數據量是一回事,數據的質量更是直接影響AI大模型的生成能力。正如網友所擔憂的那樣,低質量的數據甚至可能讓AI陷入不可逆轉的方向。

面對這樣的問題,OpenAI開始嘗試使用合成數據(AI生成的數據)來訓練AI。這樣既可以減少對受版權保護數據的依賴,同時也能訓練出更強大的結果

對此OpenAI和一系列機構開始研究使用兩個不同的模型來生成更有用、更可靠的合成數據,其中一個模型用來生成數據,另一個則用來對生成的數據進行審核。

不隻是OpenAI,英偉達很早就在用合成數據彌補現實世界的數據。在2021年11月,英偉達對外推出合成數據生成引擎Omniverse Replicator 。

英偉達將其描述為“用於生成具有基本事實的合成數據以訓練 AI 網絡的引擎”,其作用就是用來訓練AI。


此產品推出後,由該引擎生成的合成數據在自動駕駛、機器人等多個場景裡都得到驗證,因此英偉達也在近些年希望將其推廣到更多領域,包括聊天機器人。

然而,合成數據在工業場景裡的成功案例,並不代表在其他領域都能遵循物理規律。

有時候AI連真實圖片都無法理解,更不要說理解二次生成的圖片


相關推薦

2024-04-08

記錄、社交媒體上的陳年照片,忽然變得價值連城,被大科技公司爭相瘋搶。現在,矽谷大廠們已經紛紛出動,買下所有能購買版權的互聯網數據,這架勢簡直要搶破頭!圖像托管網站Photobucket的陳年舊數據,本來已經多年無人

2023-11-14

型語言模型時,通常需要數千個H100集群協同工作,因此科技巨頭、初創公司和政府機構都在爭奪英偉達有限的芯片供應。由於對其產品的需求看似無窮無盡,英偉達今年的銷售額大幅增長,股價上漲230%,市值突破1.2萬億美元大

2023-11-08

風險投資公司安德森霍茨(AndreessenHorowitz)今日站隊大型科技公司,稱免費使用受版權保護的數據來訓練人工智能(AI)大語言模型,是科技公司對人工智能進行巨大投資的基礎。安德森霍茨警告稱,如果開發人工智能技術的公

2024-04-17

多位開發者和創始人透露,許多初創公司的AI聊天機器人,極可能是采用OpenAI和其他公司的數據開發的。這些機器人在某些特定領域可以媲美GPT-4,但收費隻是OpenAI的一小部分。初創公司抄襲OpenAI的具體做法是,先開通GPT-4的會員

2024-04-01

。我們知道,如今的生成式AI有很大一部分是資本遊戲,科技巨頭利用自身強大的算力和數據占據領先位置,並正在使用先進GPU的並行算力將其推廣落地。這麼做的代價是什麼?最近《華爾街日報》一篇有關明星創業公司的報道

2023-03-15

ChatGPT今天升級GPT-4模型,AI能力更加強大,國內在這方面也在迅速追趕,有國歌國產版ChatGPT問世,現在清華大學教授唐傑宣佈由該校AI成果轉化的ChatGLM開始內測。據介紹,對話機器人 ChatGLM(alpha內測版:QAGLM),這是一個初具問

2023-07-04

鳳凰網科技訊 《AI前哨》北京時間7月3日消息,年前,當軟銀集團創始人孫正義(Masayoshi Son)推出規模達1000億美元的世界最大科技投資基金時,他曾信誓旦旦地表示,軟銀隻會根據一項策略進行投資,那就是人工智能(AI)。接著在20

2024-04-01

近日,無問芯穹發佈“無穹Infini-AI”大模型開發與服務平臺,並宣佈與摩爾線程達成深度戰略合作。無穹Infini-AI基於無問芯穹的智算雲平臺,可服務生成式大模型的多種場應用落地,為應用開發者提供高性能、易上手、安全可靠

2024-03-14

Cerebras 轉而采用臺積電的 7 納米工藝。WSE-3 采用這傢代工巨頭的 5 納米技術制造。自第一個巨型芯片問世以來,晶體管的數量增加兩倍多。與此同時,它們的用途也發生變化。例如,芯片上的人工智能核心數量已顯著趨於平穩,

2023-11-02

競爭對手英偉達收漲3.79%,HBM(高帶寬內存)供應商美光科技漲3.78%,領跑半導體板塊。昨日美股收盤後,AMD公佈2023年第三季度業績報告,公司Q3營收錄得58億美元,每股收益0.70美元,均略強於市場預期的57億美元和0.68美元。不

2023-02-15

是經過深思熟慮的、負責任的。作為一個有龐大影響力的科技巨頭,Google時刻防范著高風險,害怕新生的技術會出錯。(當然也有一個原因是,與經典的搜索相比,聊天機器人提供類人答案的成本會更高。)但是商場如戰場,不

2023-03-28

國,以OpenAI、Anthropic等初創企業和以微軟、Google為代表的科技巨頭帶領著美國在AI大模型的道路上蒙眼狂奔,最大參數已卷到5620億。在中國,美團王慧文、阿裡賈揚清、前搜狗CEO王小川、前京東AI掌門人周伯文等眾多早已功成名

2023-08-29

之外,在創業公司中,OpenAI仍然是這個快速增長類別中的巨頭,盡管其所有權和估值結構很復雜,但根據外媒之前的融資推測,其估值在270億美元至290億美元之間。估值50億美元的Anthropic,是被視為ChatGPT最大競爭對手的Claude背後

2024-02-21

人工智能應用的準確性和可靠性。隨著生成式人工智能在科技行業的廣泛應用,數據提供商急需一批能夠進行“專傢事實核查”的新承包商。傑伊的時薪高達60美元,他在OpenAI推出ChatGPT之前的一個月加入Remotasks。自那時起,該公