因為圍墻花園和付費墻 互聯網檔案館發現自己越來越難記錄互聯網


自從互聯網檔案館(InternetArchive)開始保存各種數字資料,包括軟件、遊戲、電影、圖像,當然還有網頁至今已超過26年。WaybackMachine是處理不斷增加的收集和整理互聯網快照任務的機制,自90年代中期以來,它已經取得長足的進步。

我們可以把Wayback Machine想象成一臺虛擬的時間機器。有它,你可以回到過去,查看不同的網站在整個歷史上的固定時間段的樣子。在進行研究或事實核查時,這可能是非常有用的,而在記錄網頁設計技術多年來的演變時,也同樣有趣。

Wayback Machine在成立短短一年後就成功地歸檔2TB字節的數據,這在當時是一個巨大的數據量。如今,你可以把所有這些數據存儲在一個30美元的U盤裡,並把它放在你的口袋裡隨身攜帶。

今天,Wayback Machine的數據庫中包含超過7000億個網頁,總容量接近100PB。不幸的是,這個非營利組織的工作並沒有變得更容易,因為付費墻和圍墻花園反抓取機制(如Facebook)正在使它越來越難以紀錄互聯網的樣子。20年後,我們還有可能看到今天的社交媒體活動的記錄嗎?

再者,如果元宇宙像一些人預測的那樣實現,互聯網檔案館將不得不相應地發展其收集工作,或者因為某種原因無法對該數字媒體中發生的事情進行編目。

並非所有人都認為該組織有權做它所做的一些事情。當互聯網檔案館在大流行病開始時推出沒有等待名單的國傢緊急圖書館時,一些出版商說這相當於故意大規模侵犯版權。互聯網檔案館提前關閉其緊急借閱圖書館,希望能避免一場昂貴的訴訟,但出版商還是提起訴訟。7月,雙方都提出簡易判決的動議。

internet-archive-servers.jpeg


相關推薦

2022-10-12

不同角度COVID-19大流行對個人、文化和社會造成的影響,互聯網檔案館剛剛構建一個巨大的門戶網站。LoriDonovan解釋稱:該項目匯聚125個圖書館、檔案館和文化遺產組織的160+網絡檔案館資源,並將之整合到由InternetArchive歸檔和維

2022-09-08

“Keffals”Sorrenti發起一項針鋒相對的運動。最新消息是,互聯網檔案館(InternetArchive)也已不再托管KiwiFarms的備份。此外另一條推文指出,一個單獨的備份站點也已被刪除——搜索任何內容都會得到“此URL已從時間機器中被排除

2022-06-22

論是幫助總結規劃知識、還是直接引用維基百科,谷歌與互聯網檔案館都以非常不同的方式來利用維基媒體內容。作為長期合作夥伴,我們很高興能夠與之攜手。在構建對許多不同類型的組織都極具吸引力的產品上,它們的洞察

2022-06-30

Google將開始為其使用的維基百科信息付費以此來幫助其在Google搜索中的知識面板。這傢搜索巨頭和數字圖書館“互聯網檔案館(InternetArchive)”是維基媒體基金會--運營維基百科的非營利組織--推出的仍相對較新的商業產品的首批客

2022-07-12

ook 甚至將信息功能單拎出來,推出 Messenger 應用(不過是因為這樣數據更好看),而不是將旗下應用一股腦放到一個應用之中。Google更是以全傢桶著稱,郵箱、搜索引擎、AI、相冊、網盤、社交等應用能鋪滿幾個屏。對於當時的

2022-06-22

Google正在向維基媒體基金會付費,以幫助在其搜索引擎上提供最準確和最新的信息。維基媒體基金會是維基百科背後的非營利組織,它也是Google首批購買其商業企業服務的公司之一。去年推出的維基媒體企業服務允許那些二次使

2024-03-25

難以生存。而用戶可能會面對更多他們不感興趣的廣告,因為網站試圖通過增加廣告量來彌補價值損失。W Media Research的首席分析師卡斯滕·韋德(Karsten Weide)說,由於第三方Cookie的淘汰降低廣告的效果,一些出版商的收入可能

2024-02-20

有用的信息。”科斯特說,不要爭論機器人是好是壞——因為這並不重要,它們就在這裡,不會消失,他隻是想設計一種系統,“將問題最小化,將利益最大化”。到那年夏天,他的建議已經成為一項標準——雖然不是官方標準

2022-11-16

新激發活力,否則它們將無法閱讀或被閱讀。這其實也是互聯網檔案館(archive.org)的工作:出版商試圖將新的思想引入公共領域,圖書館獲取和保存這些內容,並讓它們在未來的日子裡保持活力。而且,為服務有閱讀障礙的用

2022-07-12

監督,但這是一項艱巨的任務,而且與日俱增,不僅僅是因為其規模,還因為其任務。與此同時,監管維基百科的維基媒體基金會一直在權衡利用所有這些數據的新方法。上個月,它宣佈一個企業層級和它的第一批兩個商業客戶

2023-04-11

史蒂夫-喬佈斯檔案館已經出版《創造奇跡》:史蒂夫-喬佈斯自己的話--一本新的免費電子書,其中收集蘋果公司聯合創始人的照片、電子郵件、演講稿和訪談,其中一些內容以前從未被公眾看到過。《Make Something Wonderful》現在

2022-11-07

所有原始視頻文件和描述,目前正試圖將這些內容移交給互聯網檔案館。這並不是蘋果公司第一次對檔案內容下手。2016年,當YouTube因版權問題刪除EveryAppleVideo頻道時,產品設計師Sam Henri Gold將保存其視頻作為自己的使命。在第

2022-10-21

些可能會“隨時間流逝而丟失”的軟件和媒體文件。作為互聯網檔案館的一員,這項個人工作構建於該組織現有的數據庫之上。通過新的搜索層,Discmaster現可檢索從近9200萬份CD-ROM和軟盤上提取的老式計算機文件。Discmaster 搜索

2024-04-08

年,科技公司很可能會耗盡互聯網上所有的高質量數據,因為他們消耗數據的速度,遠遠超過數據的生成速度!訓練ChatGPT的數據,是從互聯網上免費抓取的。Sora的訓練數據來源不詳,CTO Murati接受采訪時支支吾吾的表現,險些又