給AI當“奶媽”,是天涯們的生路嗎?


老牌中文社區天涯已經住進“ICU”整整一年,破產看來已經註定,但最近一傢美國同行搭上AI快車的消息,又給天涯帶來一絲希望。去年4月,因拖繳數據機房費用,天涯社區遭“斷網”。癥結在缺錢。天涯社區稱,危機來自於近幾年資金流動性困難加劇,電信IDC欠費,導致天涯社區暫停訪問。

再聽到天涯的消息,是在今年2月底,全國企業破產重整案件信息網上公開一條“天涯社區網絡科技股份有限公司被申請破產審查”的信息。

盡管天涯方面否認即將破產的傳聞,但天涯重見天日的可能性,到底是更加渺茫。

在美國,一傢式微的老牌內容平臺,卻依靠AI的浪潮找到副業,吃下熱錢——第三方圖片托管平臺Photobucket,一度擁有7000萬用戶,占據美國在線照片市場的近一半份額。如今,Photobucket輝煌不再,隻有約200萬人還在使用它。

正所謂“瘦死的駱駝比馬大”,已經被大部分人遺忘的Photobucket有之前多年的積累,依然坐擁上百億照片和視頻。而這,正是患上“數據饑渴癥”的AI公司最需要的。

在AI熱潮下,不斷有公司找上門來。以正在進行的談判來粗略估計,Photobucket手裡掌握的內容可能價值數十億美元。

有錢但缺數據的AI公司,遇上沒錢但積累海量內容的老牌社區,不交易一下才奇怪。

Photobucket正在與AI公司談交易的消息,是由路透社曝出的。

有意思的是,報道中有一句話在後續編輯中被刪除:“公司預計,其第一季度營業陸潤將增長10倍,達到近49億美元。”

49億美元是什麼概念?

Photobucket作為一傢圖片托管網站,剛開始是免費的。在千禧年前後,互聯網用戶激增,人們或為記錄生活,或為分享,樂於將照片上傳到一個專門的網站。而且,在Photobucket上傳圖片後,人們還可以在其他網站如MySpace直接嵌入,省得反復上傳。一些賣傢也會在eBay或亞馬遜使用Photobucket托管的圖片。

用這種方式,巔峰時期的Photobucket一度占據美國互聯網流量的2%。

由免費轉向付費,似乎是Photobucket的必經之路。不過,Photobucket有點太心急。2017年時,Photobucket突然將第三方顯示變為每年399美元的付費訂閱服務。此舉並沒有提前的充分預警,很多用戶發現自己在其他網站嵌入的Photobucket圖片都無法展示,變成“付費以解鎖”的提示。

要知道,Photobucket當時已經有1億註冊用戶,有約6000萬第三方網站的圖片在此次“升級”下無法正常顯示。在爭議之下,Photobucket次年將年訂閱模式改為可月付的模式,並沿用至今。

Photobucket也就此走上下坡路。後續幾年,Photpbucket又經歷服務中心斷電導致服務中斷、隱私泄露等“意外”,漸漸從備受歡迎的圖片網站變成互聯網邊角料產品。公司規模也從鼎盛時期的120名員工縮水到40人。

目前Photobucket網站提供的付費計劃中,最貴的每月收取8美元。以最新報道透露的200萬用戶在使用Photobucket計算,哪怕他們全部月付8美元,每年也僅能貢獻1.9億美元。而且這對Photobucket來說隻是收入,沒有剔除存儲、維護、運營等的各項成本。

雖然Photobucket在過去二十年損失不少用戶,但除非用戶註銷,它一直保留著用戶的圖片。即便是在不再支持免費賬戶的情況下,Photobucket也明確通知用戶:你的照片還在,隻需要現在開始付費,就能重新看到它們。

不斷有已經棄用Photobucket的用戶在社交媒體上吐槽,稱自己頻繁收到Photobucket“求復合”的郵件,已經不堪其擾。

既然圖片都在,海量的內容還存儲在服務器上,為什麼不用它們賺上一筆?將平臺內容授權給AI公司,獲得49億美元,對Photobucket來說可以算是一筆巨款。

為什麼AI公司會找上“明日黃花”Photobucket?

答案很簡單,太缺數據。以OpenAI的GPT系列模型為例,GPT-3使用3000億的token,GPT-4使用12萬億的token。而已經在路上的GPT-5所需的token量在60萬億到100萬億。

“規模即一切”成為AI的戰鬥口號。霍普金斯大學盧綸物理學傢賈裡德·卡普蘭(Jared Kaplan)在2020年發表一篇關於AI的開創性論文,其表明訓練數據越多,大型語言模型的表現越好,就像學生通過閱讀更多書籍來學習更多知識一樣。

互聯網上公開可用的數據在大模型面前並不是取之不盡的。據人工智能研究機構Epoch估計,2026年所有高質量可用數據就有可能被耗盡,互聯網生產數據的速度有可能比不上不斷膨脹的大模型的消耗速度。

“數據饑渴”的AI公司獲取數據的路徑,總結起來就是:免費的,直接用;自傢的,直接用且不給別人用;可以付費的,付費;付費也買不到的,必要時想想辦法弄到手。

近日,《紐約時報》報道OpenAI曾在訓練GPT-4時利用Google旗下YouTube的內容。直接取用肯定不行,Google不讓啊。於是OpenAI計上心頭,創建一個名為Whisper的語音識別工具,將超過100萬小時的YouTube視頻轉錄,然後再喂給模型。

此前,尚未開放給大眾的文本到視頻工具Sora也引起外界懷疑。在一次采訪中,OpenAI的首席技術官米拉·穆拉蒂(Mira Murati)沒有正面回應“是否使用YouTube、Instagram、Facebook等平臺的內容訓練Sora”這一問題,她聽到該問題時復雜的表情甚至成為互聯網梗圖。

YouTube首席執行官尼爾·莫漢(Neal Mohan)在4月5日對此表態,稱目前沒有證據表明OpenAI用YouTube視頻訓練Sora,但如果OpenAI果真這麼做,那“明顯違反”YouTube平臺的使用條款。

要是以為YouTube是在努力保護用戶(或說創作者),可能有點天真。莫漢在采訪中也提到,Google確實用YouTube上的一些內容訓練旗下大模型Gemini。

另一邊,巨頭Meta的馬克·紮克伯格(Mark Zuckerberg)也將平臺數據視為自己的競爭優勢。紮克伯格曾直言:“我們戰術的下一個關鍵部分是從獨特的數據中學習。”“在Facebook和Instagram上,有數千億張公開分享的圖片和數百億段公開視頻。”

在去年怒噴微軟,威脅要起訴其使用X的數據訓練AI的埃隆·馬斯克(Elon Musk),也悄悄更新X的隱私政策,表示會使用社交媒體數據來訓練機器學習和AI模型。在網友的追問下,馬斯克幹脆承認:“隻會用公開信息(訓練),不會用私信和任何私人數據。”

有海量UGC(用戶生成內容)且自己也做AI的公司,數據是不賣的,隻給自己用。其他AI公司要麼就鋌而走險偷偷用,要麼就要去找那些有內容但願意出售的公司。

ShutterStock和Reddit都是活躍在數據交易場上的“大賣傢”。

圖片網站ShutterStock幾乎和所有叫得上名字的AI大公司都合作個遍,包括但不限於OpenAI、Meta、Google、亞馬遜,達成使用其圖片訓練AI的協議。每筆交易的最初價格從2000萬美元到5000萬美元不等,而且後續還擴大交易規模。

隨著AI浪潮翻湧,“美國貼吧”Reddit意識到自己的數據對AI公司至關重要,且非常寶貴。去年開始,Reddit開始與一系列AIGC領軍企業展開談判,商議數據付費使用的問題。說白就是,不付費要授權,休想用這一頭部美國貼吧的內容喂AI。談判陸續有進展,如今年2月,Reddit就與Google達成協議,授權數據給其訓練AI,合同價值約每年6000萬美元。

在這樣的態勢下,Photobucket這樣的老牌社區被盯上隻是時間問題。

Photobucket的首席執行官泰德·倫納德(Ted Leonard)表示,他正在和多傢科技公司談判,涉及130億個內容(照片和視頻)的授權。每張照片的授權價格在5美分到1美元,視頻則為1美元以上。

一位買傢告訴倫納德,他們想要超過10億個視頻,比Photobucket擁有的還多。以現在的談判來看,Photobucket坐擁數十億美元的內容。

機智的Photoshop在去年10月更新其用戶條款,授予平臺“不受限制的權利”,可以出售任何上傳的內容,用於培訓AI系統。

倫納德甚至表示,有望用數據授權替代公司的廣告銷售業務。

繁忙的數據交易市場,也許給式微甚至已經死亡的UGC平臺提供一個“副業”。

天涯究竟積累多少內容不可知,幾個數據可以從側面一窺其規模。巔峰時期,天涯的日訪問量曾達到2000萬。

在中文社區的黃金時代,流行著“全民話題,天涯制造”的說法。眾多初代網紅誕生於這裡,如芙蓉姐姐、極品小月月、犀利哥等。眾多暢銷書孵化於此處,如《鬼吹燈》《明朝那些事兒》《東北往事:黑道風雲二十年》《法醫秦明》等等。

中文論壇對AI訓練的用處也正在被關註。

一項研究顯示,百度貼吧的“弱智吧”顯現出不俗的數據訓練效果。

這項研究由中科院深圳先進技術研究院、中科院自動化研究所、滑鐵盧大學等眾多高校、研究機構聯合完成,提出一個高質量的中文指導優化數據集。研究中用中文指導優化數據集訓練不同類型和大小的模型,探討各種數據源對模型性能的影響。在測試中,百度貼吧“弱智吧”的得分頗高。

“弱智吧”聚集300個成員,並不是真的和智力障礙相關,而是“假裝弱智”,發表一些燒腦言論。如“如果高中的入學率不高,為什麼不直接錄用大學生”,或“為什麼我爸媽結婚的時候沒有邀請我”。研究人員猜測,可能是“弱智吧”的問題增強AI的邏輯推理能力。

這是全民創作和AI之間碰撞出的火花,社區內容有時能貢獻意想不到的驚喜。

不過,橫在社區內容和AI之間的,還有用戶。

就像Photobucket忙不迭地更新用戶條款,中文互聯網的“內容確權”也一直是個問題。

一方面,中文互聯網平臺早已形成將授權條款埋入用戶條款裡的習慣。目前所能查到的天涯2017年的《隱私和版權》協議中寫明:“用戶發表並將其上傳到本網站的任何內容,本社區在全世界范圍內不限形式和載體地享有永久的、不可撤銷的、免費的、非獨傢的使用權和轉授權的權利,包括但不限於修改、復制、發行、展覽、改編、匯編、出版、翻譯、信息網絡傳播、廣播、表演和在創作及著作權法等法規確定的其他權利。”

天涯“斷電”後,網絡上售賣“天涯神帖合集”的生意走俏。天涯曾在重啟公告中稱,關註到天涯神貼在各大平臺大受歡迎,“計劃從現在開始發展一批高級會員,在回復訪問後的天涯社區平臺上開辟天涯神貼付費專區”。

在重啟公告的最後,天涯表示,“無論是預購一個‘99元天涯神貼服務’,還是預購一個‘299元一對一數據下載服務’,都是對天涯重啟非常重要的助力”。文末,天涯附上購買二維碼。

另一方面,平臺是否就此有權將用戶內容授權給其他公司以訓練AI,還有待商榷。

用戶對此頗為警惕。

在去年,小紅書曾更新用戶條款,在“用戶內容及信息授權”中寫著“您授予xxx公司免費的、不可撤銷的、非排他的、無地域限制的許可使用”,並表示“上述許可包括使用、復制和展示用戶內容中受保護的個人形象、肖像、姓名、商標、品牌、標識及其他營銷推廣素材、物料的權利和許可”,加之彼時恰有插畫師質疑AI工具涉嫌抄襲,而引發插畫師對平臺用自己上傳的作品訓練AI的擔憂,不少插畫師公開抵制,並宣佈在該平臺停更。

如今PhotoBucket首席執行官接受采訪,並坦誠平臺與AI公司進行授權協議,但並不是每個AI公司都對其內容放心。

Defened.ai的首席執行官佈加拉(Daniela Braga)表示,她避免從Photobucket這樣的平臺公司獲取內容,而更喜歡從創作這些照片的原作者那裡獲取授權:“我認為這非常危險。”“如果有一些AI生成的東西類似於某個從未點頭許可的人的照片,那就有麻煩。”


相關推薦

2024-03-02

雖然不少90後和00後甚至都沒有聽說過“天涯社區”,但對於很多80後、70後來說,天涯社區曾經記錄和見證他們的青春和夢想。日前一條“天涯社區已經被申請破產審查”的消息再度引發外界關註,天涯上一次引起這麼大的動靜

2024-03-23

臺命運的,還是內容,是用戶,是創作的生命力。這也是天涯和Reddit分道揚鑣的根本。天涯還在為籌集幾百萬重啟費用而頭疼,美國版的天涯——Reddit此時已經上市。Reddit是美國歷史最悠久的社交平臺之一,它的形式和天涯、貼

2023-12-22

快科技12月21日消息,據國內媒體報道,天涯社區創始人邢明近日接受采訪時表示,天涯將在明年3月1日,公司成立25周年時重啟,重啟後將推出官方版天涯神貼”。天涯回歸後將與視頻結合,基於天涯社區誕生的數千本小說和豐

2023-04-27

4月27日消息,天涯社區,曾經的全球最大中文互聯網社區,近日被曝已無法打開,引發網友們的集體懷舊和感慨。據雷峰網獲悉,天涯社區內部已經分崩離析,因無力償還債務,資產被打包出售;員工苦於被拖欠工資、拖欠社保

2024-09-14

一直處於不溫不火的狀況中,現在的AI電商,能殺出一條生路嗎?百度電商再次“革命”這次直播,不僅有朱時茂老師,還有其春晚老搭檔陳佩斯的鼎力相助。朱時茂老師更是頂著“刀哥”與“百度優選首席砍價官”雙頭銜來一場

2023-05-28

4月24日,作為中國互聯網曾經的一個富豪,天涯社區徹底關停,網頁、APP均無法訪問,令人唏噓。現在,天涯社區創始人、前董事長刑明首次公開現身,回應網友關切的問題。刑明表示:原來我們隻是想低調地休整一段時間,籌

2023-04-26

悼念潮”——被悼念對象是昔日全球最大中文互聯網社區天涯社區。不少網友發現,天涯社區網站和App已無法打開。盡管天涯社區官方4月1日曾發佈公告稱,近期將進行技術升級和數據重構,在此期間平臺將無法訪問,但一“停

2024-03-02

一紙2000餘字的公告,宣告停擺11個月的天涯社區正式進入重啟。3月1日深夜11點,天涯社區在官方公眾號上發佈《關於天涯社區業務重啟、網絡平臺恢復訪問進度及新天涯計劃的公告》(下稱“《公告》”)。《公告》稱,經過

2022-07-25

昔日馬斯克和兩位谷歌創始人拉裡·佩奇(Larry Page)和謝爾蓋·佈林(SergeyBrin)一起打遊戲的時候,他們可能會暢想,有朝一日要把三兄弟的名字共同鐫刻在矽谷的輝煌史上。他們確實做到這點。根據福佈斯全球富豪

2024-03-13

力與運氣缺一不可,失敗的原因卻各有各的不同。此前,天涯也曾發起“七天七夜重啟天涯”的直播帶貨,但卻以一周帶貨36.1萬元的成績草草收場。這場活動的發起人宋錚曾告訴新榜編輯部,從選品、話術到平臺規則,他大大

2023-11-30

也多有關註。隨著AI在諸多領域有成熟的應用,在方便人們的同時也引發一系列法律問題,其中就涉及版權、詐騙等——有熱搜就提到“AI換臉用楊冪等明星賣貨或涉侵權”“10分鐘被AI換臉騙走430萬元”等問題。中國公司,all in

2023-12-02

快科技12月1日消息,據媒體報道,天涯創始人、董事長邢明稱,天涯預計於12月在抖音、淘寶、視頻號正式開啟官方直播,將向直播電商進行堅定戰略轉型,打造社交型會員制電商。邢明表示:電商業務很卷,這次我們公司準備

2024-03-16

下架近一個月的天涯社區App,日前重新上架到蘋果AppStore應用商店以及部分Android應用商店(如應用寶),版本號為7.3.0。然而下載該應用並打開之後卻發現,截至發稿前,天涯社區App仍無法正常訪問,卡在開屏圖片當中。早前3月

2024-03-14

分佈在數百個以上的GPU上,通過頻繁地交換數據來協調它們的工作。基於神經網絡架構的具體特性,隻有獲得前一層的全部或部分激活數據,才能在開始分析數據,並提供給下一層。也就意味著,如果這兩層的數據運行在不同的