每日最新頭條.有趣資訊

Internet Archive:記錄那些被遺忘的互聯網

他們試圖備份整個互聯網。

在 Martin Luther King, Jr 的維基百科詞條下面,附注著三百多條腳注,其中包括 66 本書籍引用。

這是人們信賴維基百科的原因,幾乎每一則詞條的每一處描述都有跡可循,查閱者可以通過參考資料檢驗詞條文本的準確性。

不過就算是維基百科這樣的互聯網百科全書,它能記錄的也非常有限。《紐約客》一篇題為 Can the Internet be archived?的文章中曾經寫道,「網絡永遠生活在當下。它虛幻、短暫、不穩定、不可靠。有時候你想要訪問的網頁卻指向了 404... 有時候你想要查詢的頁面已經被更新後的內容覆蓋——這更麻煩,因為網頁不會告訴你,你看到的內容壓根兒不是你想查詢的內容。」

那麽,有沒有辦法能夠找到那些 404 或者修改前的網絡內容呢?

備份互聯網

有人試圖備份整個互聯網。

1996 年,因為擔心網絡上的信息不能像印刷在書籍裡一樣被永恆地保存下來,布魯斯特·卡利(Brewster Kahle)創立了公益性質網站 Internet Archive。

很多人將 Internet Archive 定義為最偉大的搜索網站。Kahle 開發的搜索工具 Wayback Machine 定期收錄和抓取全球網站的信息,並進行保存。Wayback Machine 的工作也有主次之分,對於不同的網站,收錄的數量和頻次也不相同。

截止到現在,Internet Archive 已經保存了 3300 億網頁和頁面快照,而 Internet Archive 的偉大在於,除此之外,這個龐大的檔案館還記錄了 2000 萬冊圖書和文本,850 萬份音頻和視頻、300 萬幅圖像和 20 萬個軟體程序。

總而言之,Internet Archive 想做的是讓信息獲取更加簡單和準確。最近,Internet Archive 和維基百科聯手做了一件事情,讓維基百科更靠譜了。Internet Archive 已經將維基百科腳注中 13 萬條書籍引用定向鏈接到 Internet Archive 5 萬本(覆蓋英語、希臘語和阿拉伯語)完成過數字化掃描,且對公眾公開的書籍。查閱者可以通過點擊腳注的頁碼,查看被引用部分的兩頁上下文預覽。

查閱者可以通過點擊腳注的頁碼,查看被引用部分的兩頁上下文預覽 | Internet Archive

網絡圖書館

上述《紐約客》文章中說,「腳注是人類文明史上的一個里程碑,發明和傳播它花了幾個世紀的時間,摧毀它僅僅用了幾年。比如過去,書籍和論文的腳注能讓你準確了解到額外的信息,以及信息的來源。現在,當一切搬到互聯網上,你仍然可以通過點擊腳注的鏈接獲取更多信息,只不過你不知道興許哪一天鏈接就失效了。」

2016 年 10 月,維基百科和 Internet Archive 宣布合作解決失效鏈接問題,Wayback Machine 主管 Mark Graham 開發的 InternetArchive Bot 自動掃描維基百科腳注的失效鏈接,並自動將失效鏈接連接到 Wayback Machine 保存的頁面。「我們編輯了 1400 萬鏈接,超過 1100 萬鏈接到 Internet Archive。」Graham 說到。

鏈接書籍的工作與之類似,但是更具有挑戰性。Graham 解釋說,並非所有書籍都有 ISBN 編碼,也並非所有腳注都參考了正確引用格式,標注了具體的頁碼。

Internet Archive 稱自己為網絡圖書館。不少線下圖書館也會對書籍數字化之後借閱給用戶。當你對某一本引用的書籍感興趣,就可以問 Internet Archive 借閱到電子版。

Internet Archive 從 2005 年開始著手書籍數字化的工作,它的「館藏」裡已經有了 380 萬本。目前 Internet Archive 在全球設了 22 個工作點,每天有 100 位員工以每天 1000 本的速度加快掃描工作,即便這樣還有數百萬本書排隊等候。

數字時代,人們與書本的距離越來越遠。Kahle 稱,「我們希望從維基百科開始,通過將書籍編織進互聯網的方式,將讀者與書籍連接起來。」

互聯網檔案館

80、90 後的青春可能隨著某天天涯和豆瓣的關閉而停駐,Facebook 成立以來也不過十幾年光景。互聯網加速了信息的傳播和迭代,相應地人們遺忘得也越快。但是在 Internet Archive,念舊的人可以看到當時的熱點話題「製造機」天涯社區,以及現在看來有些「非主流」的新浪微博首頁快照。

Internet Archive 保存的天涯和新浪微博的快照 | Internet Archive

正如《紐約客》評論道,幾乎可以肯定,如果哪些東西沒有被網頁時光機(Wayback Machine)收錄,它們等於從來沒有存在過。

2014 年 7 月 17 日,馬來西亞一架波音 777 客機起飛後不到三小時在烏克蘭墜毀。烏克蘭反對派指揮官 Strelkov 在俄羅斯社交媒體 VKontakte 發布一條消息,「我們剛剛擊落一架飛機,一架 AN-26。」這則帖子包含了飛機殘骸的視頻鏈接,看起來像是波音 777,隨後被刪除。第二天,這則帖子被收錄到 Wayback Machine,Internet Archive 在 Facebook 發帖稱,「這就是我們存在的意義。」

正如《金融時報》評論,在一個虛假信息,極端主義內容被迅速創造和傳播,社交媒體信息不斷迭代和更新的時代裡,能夠記錄「誰說了什麽」,「何時說了什麽」而且內容不可更改的重要性被放大了。通過 Internet Archive 對不同時期的歷史信息進行研究,是它更大的價值所在。比如在川普當選之後,Internet Archive 收集了包括川普就職前的 6000 多段視頻幫助人們辨別和核實虛假信息。

然而,想要建立全球化的互聯網檔案館不太容易,部分原因在於各個國家在法定送存、版權、隱私等法律問題上無法統一。今年年初,英國作家協會(The Society of Authors)表示 Internet Archive 做法涉嫌侵權——在英國所有的書籍掃描和借閱行為必須得到版權所有者的授權,且每一次借閱能為作者帶來 8.52 便士的公共出借報酬。英國作家協會指摘 Internet Archive 沒有得到作者的許可,同時沒有支付任何報酬。

不久之後,一份由全美作家聯盟(NationalWritersUnion)發布,其余 36 個組織(包括 The Society of Authors)共同簽署的文件,譴責 Internet Archive 和合作圖書館掃描和分發電子書的行為。雖然 Internet Archive 解釋他簽署了 CDL(controlled digital lending)協議——在沒有獲得版權所有者的許可下,允許圖書館數字化印刷書籍,並借出給用戶。前提是規定借出數量和時間上限,並且基於合理使用(Fair use)制度,借出數量必須與數字化前實體書籍數目一致(一旦一本實體書被借出,它的對應電子版本則不能借出,反之亦然。)

法律跟不上技術迭代的步伐,就如同許多敢為人先者一樣,Internet Archive 身處在資源共享和版權至上的夾縫之中。

互聯網檔案館創始人 Brewster Kahle | 維基百科

「在中國互聯網的古代,人們不僅只是使用互聯網,那時候的人們參與建設互聯網... 比如說前往維基百科編纂詞條,管理內容。在中文互聯網世界裡,人們去豆瓣網增添電影、書籍、音樂專輯的條目,便於其他網友標注、收藏和評論。」網絡寫手和菜頭曾如此寫道。

這或許和 Internet Archive 想要打造的互聯網世界相似,用 Graham 的話說,Internet Archive 希望普及所有知識。Kahle 表示,儘管 Internet Archive 扎根在舊金山,但是與今天的矽谷共同點少之又少。他希望所有技術的「遺產」最後不是掌握在少數人手中,「我喜歡很多人都能贏的感覺。」

責任編輯 宋德勝

圖片來源 Internet Archive、視覺中國

2019 年 12 月 20-22 日,來 751 D·PARK 北京時尚設計廣場,參加「極客公園創新大會十周年 GeekPark IF X」,將有機會聽到雷軍王小川王慧文倪行軍米雯娟余凱劉作虎樊登……當然,還有羅永浩為你:

「回顧」移動互聯網黃金十年

「盤點」科技圈的關鍵時刻

「預測」下一個十年的「必然」

我們從歷史中汲取經驗,從新的榜樣裡看到未來,「FOR THE NEXT 10 YEARS」。

最後機會!IF X 限時早鳥票即將售罄,點擊文末「閱讀原文」,即刻鎖票!

極客公園創新大會十周年觀眾交流群正在開放,入群請加「geekgogo」。

點擊「閱讀原文」立即鎖票。

獲得更多的PTT最新消息
按讚加入粉絲團