逝去网页重现:恢复已消失的网络内容
速览
网络上的内容不断消失,但一项名为“恢复已死网络”的项目致力于找回这些失落的数字记忆。通过技术手段,团队尝试从存档、缓存或碎片中重建已删除的网页。这项工作不仅关乎历史保存,也可能影响网络内容的可追溯性与研究价值。AI技术在其中可能用于自动识别和重建残缺内容。
AI 深度解读
背景
互联网信息正在以惊人的速度消失。2024年,皮尤研究中心(Pew Research Center)发布了一项名为“When Online Content Disappears”的链接腐烂(link-rot)研究,发现2013年存在的网页中有38%在十年后已无法访问;而在2013至2023年间曾存在过的所有网页中,约四分之一目前已不可达。这项研究并非孤例。过去二十年间,多项链接腐烂研究得出了类似甚至更严峻的结论。例如,SEO公司Ahrefs在同年报告称,“过去9年中至少66.5%的网站链接已失效”。2021年,Jonathan Zittrain在《大西洋月刊》发表文章《互联网正在腐烂》,其团队分析了《纽约时报》约200万条外部链接,发现25%的深层链接已腐烂,而1998年的旧链接中72%已失效。近期,老道明大学(ODU)的一项纵向研究“Some URLs Are Immortal, Most Are Ephemeral”分析了自1996年以来Wayback Machine中的2730万个URL样本,发现在2023年检查时,约65%的采样URL在实时网络上已失效。互联网档案馆(Internet Archive)创始人Brewster Kahle曾引用早期数据,称网页的平均寿命在40到100天之间。2026年将出版的书籍《Vanishing Culture: A Report on Our Fragile Cultural Record》(作者Messarra等人)则强调了近期大量数字文化损失的根本原因,以及图书馆和档案馆在维护未来文化历史中的关键作用。
不同研究从不同角度和背景审视了这一问题,虽然难以直接横向比较,但共识是:随着时间的推移,越来越多的链接正在腐烂。然而,部分研究(并非全部)忽略了网络存档的存在,例如Wayback Machine——一部分已死网页可能被保存在其中,当引用的链接失效时,它可作为备用方案。
核心内容
本文从Wayback Machine的视角重新审视了上述链接腐烂研究,考察有多少“已死网页”能被拯救。表1(原文未提供具体数字表格,此处概括)展示了不同研究所采样的“已死”与“被拯救”网页的概况。
首先聚焦皮尤研究中心的数据集。皮尤慷慨地分享了其数据集(包含540万条独立URL,涵盖通用网页、新闻、政府和Wikipedia引用类别,采样自Common Crawl存档和Wikipedia页面;Twitter推文数据集因使用政策限制未共享)。作者对数据进行了转换和提取(原始数据集为Parquet格式),然后检查每条URL在Wayback Machine中是否被存档以及首次存档时间。
为便于理解,文中定义了一系列术语:
- Alive(存活):URL解析时返回200 OK HTTP状态码。
- Dead(已死):URL解析时返回HTTP错误状态码、TCP连接错误或DNS失败。
- Preserved(已保存):URL在实时网上存活,且存在于网络存档中。
- Rescued(已拯救):URL在实时网上已死,但存在于网络存档中。
- Endangered(濒危):URL在实时网上存活,但未存在于任何网络存档中。
- Vanished(消失):URL在实时网上已死,且未存在于任何网络存档中。
- Archived(已存档):Preserved + Rescued。
- Accessible(可访问):Preserved + Rescued + Endangered。
如果不依赖任何网络存档,540万条采样URL中约有四分之一(约25%)被视为不可访问或已死。但借助Wayback Machine访问这些已死URL后,不可访问(消失)的比例从每四个中有一个下降到每十个中仅有一个。Wayback Machine存有该数据集约72%的URL,其中56%是仍在实时网上存活的“已保存”URL,16%是从已死状态“拯救”回来的URL。另有18%的URL在实时网上仍然存活,但尚未被Wayback Machine存档(称为“濒危”),如果未来它们在实时网上消失,就可能变成“消失”。值得注意的是,该分析未考虑Wayback Machine之外的其他较小网络存档中可能存在的同一条URL的存档;若计入,可访问URL的比例可能还会略增。此外,分析仅依赖HTTP状态码,未检查页面内容以识别“软404”(即错误页面却返回200 OK)或其他无关内容,这可能会微调数字。
皮尤数据集中有一个约100万条URL的子集,是2013年至2023年共11年间通用网页的样本。皮尤指出,该子集中约四分之一的URL在2023年已经死亡,越旧的URL损失比例越高,2013年的链接高达38%。作者复现了皮尤的年度图表(图2,原文未附图),并用橙色表示已死URL比例,绿色叠加表示被Wayback Machine拯救的URL。结果发现:2013年死亡的URL中,约有38%(相当于总数的约15%)被Wayback Machine拯救;而整个通用样本中累积被认为已死的URL中,约有一半被Wayback Machine拯救。值得注意的是,图2中最近三年(2021-2023)的URL几乎被完全拯救,但这只是因为Common Crawl近年的数据被批量导入Wayback Machine,而皮尤数据集恰好以Common Crawl为来源,存在偏差。
作者尝试获取Zittrain研究中约200万条《纽约时报》外部链接的数据集,但尚未成功。作为替代,作者自行构建了一个数据集:下载Wayback Machine中所有2013年《纽约时报》页面,提取所有外部链接,并排除指向nytimes.com本身的链接,最终获得约8.8万条URL。随后检查每条URL在实时网上的状态(最多跟踪5次重定向),并检查它们是否存在于Wayback Machine中。结果显示:2013年《纽约时报》外部链接中有40%在实时网上已死,但这些URL中有96%在Wayback Machine中有存档。这意味着只有约2%的URL已经从网络中彻底消失。不过,这一惊人数字需要谨慎对待:因为样本本身来自Wayback Machine中存在的页面,这些页面中的外部链接被存档的可能性天然高于不在Wayback Machine中的页面所链接的URL。作者表示,如果未来能获得Zittrain研究的原始URL样本,将重新审视这些数字。
近期最全面的链接腐烂纵向研究来自ODU(本文作者是该研究的合作者)。该研究分析了1996年至2021年期间从Wayback Machine索引中采样的2730万个URL。结果显示,所有采样URL中约有65%在检查时已在实时网上失效。不过,由于这些URL本身来自Wayback Machine索引,它们全部已被存档(即“Rescued”状态)。但ODU研究也发现,不同年份的URL在Wayback Machine中首次存档的时间存在很大差异:早期(1996-2000年)的URL往往在创建多年后才被存档,期间大量URL可能已永久消失。该研究还指出,即使URL被存档,存档版本也可能不完整(例如缺少图片、样式等),且存档本身也需要长期维护。
关键要点
- 链接腐烂是普遍且加速的现象:不同研究一致表明,随时间推移,越来越多网页链接失效。皮尤研究显示2013年网页38%在十年后死亡;ODU研究显示1996-2021年约65%采样URL失效;Ahrefs报告66.5%的链接在9年内失效。
- Wayback Machine能有效拯救约一半的已死网页:在皮尤的540万条URL样本中,依赖Wayback Machine可将不可访问比例从25%降至10%(即拯救了约15%的总体和约50%的已死URL)。在《纽约时报》2013年外部链接样本中,Wayback Machine拯救了96%的已死链接。
- 存在“濒危”网页:约18%的实时存活URL尚未被任何网络存档。这些网页一旦在源站消失,就可能永远丢失。
- 数据偏差需警惕:基于Wayback Machine自身索引的研究(如ODU和本文的NYT替代样本)会高估拯救率,因为样本本身就有存档倾向。皮尤样本基于Common Crawl,相对更全面但仍存在近期的“信息摄入偏差”。
- 软404和内容缺失问题:研究仅依赖HTTP状态码,未检查软404或存档页面的内容完整性。实际可访问性可能比数字显示更差。
- 网页平均寿命极短:Internet Archive创始人Brewster Kahle指出网页平均
