AI 资讯Hacker News·3 天前

逝去网页重现：恢复已消失的网络内容

原标题：Gone but Not Forgotten: Recovering the Dead Web

速览

网络上的内容不断消失，但一项名为“恢复已死网络”的项目致力于找回这些失落的数字记忆。通过技术手段，团队尝试从存档、缓存或碎片中重建已删除的网页。这项工作不仅关乎历史保存，也可能影响网络内容的可追溯性与研究价值。AI技术在其中可能用于自动识别和重建残缺内容。

AI 深度解读

背景

互联网信息正在以惊人的速度消失。2024年，皮尤研究中心（Pew Research Center）发布了一项名为“When Online Content Disappears”的链接腐烂（link-rot）研究，发现2013年存在的网页中有38%在十年后已无法访问；而在2013至2023年间曾存在过的所有网页中，约四分之一目前已不可达。这项研究并非孤例。过去二十年间，多项链接腐烂研究得出了类似甚至更严峻的结论。例如，SEO公司Ahrefs在同年报告称，“过去9年中至少66.5%的网站链接已失效”。2021年，Jonathan Zittrain在《大西洋月刊》发表文章《互联网正在腐烂》，其团队分析了《纽约时报》约200万条外部链接，发现25%的深层链接已腐烂，而1998年的旧链接中72%已失效。近期，老道明大学（ODU）的一项纵向研究“Some URLs Are Immortal, Most Are Ephemeral”分析了自1996年以来Wayback Machine中的2730万个URL样本，发现在2023年检查时，约65%的采样URL在实时网络上已失效。互联网档案馆（Internet Archive）创始人Brewster Kahle曾引用早期数据，称网页的平均寿命在40到100天之间。2026年将出版的书籍《Vanishing Culture: A Report on Our Fragile Cultural Record》（作者Messarra等人）则强调了近期大量数字文化损失的根本原因，以及图书馆和档案馆在维护未来文化历史中的关键作用。

不同研究从不同角度和背景审视了这一问题，虽然难以直接横向比较，但共识是：随着时间的推移，越来越多的链接正在腐烂。然而，部分研究（并非全部）忽略了网络存档的存在，例如Wayback Machine——一部分已死网页可能被保存在其中，当引用的链接失效时，它可作为备用方案。

核心内容

本文从Wayback Machine的视角重新审视了上述链接腐烂研究，考察有多少“已死网页”能被拯救。表1（原文未提供具体数字表格，此处概括）展示了不同研究所采样的“已死”与“被拯救”网页的概况。

首先聚焦皮尤研究中心的数据集。皮尤慷慨地分享了其数据集（包含540万条独立URL，涵盖通用网页、新闻、政府和Wikipedia引用类别，采样自Common Crawl存档和Wikipedia页面；Twitter推文数据集因使用政策限制未共享）。作者对数据进行了转换和提取（原始数据集为Parquet格式），然后检查每条URL在Wayback Machine中是否被存档以及首次存档时间。

为便于理解，文中定义了一系列术语：

Alive（存活）：URL解析时返回200 OK HTTP状态码。
Dead（已死）：URL解析时返回HTTP错误状态码、TCP连接错误或DNS失败。
Preserved（已保存）：URL在实时网上存活，且存在于网络存档中。
Rescued（已拯救）：URL在实时网上已死，但存在于网络存档中。
Endangered（濒危）：URL在实时网上存活，但未存在于任何网络存档中。
Vanished（消失）：URL在实时网上已死，且未存在于任何网络存档中。
Archived（已存档）：Preserved + Rescued。
Accessible（可访问）：Preserved + Rescued + Endangered。

如果不依赖任何网络存档，540万条采样URL中约有四分之一（约25%）被视为不可访问或已死。但借助Wayback Machine访问这些已死URL后，不可访问（消失）的比例从每四个中有一个下降到每十个中仅有一个。Wayback Machine存有该数据集约72%的URL，其中56%是仍在实时网上存活的“已保存”URL，16%是从已死状态“拯救”回来的URL。另有18%的URL在实时网上仍然存活，但尚未被Wayback Machine存档（称为“濒危”），如果未来它们在实时网上消失，就可能变成“消失”。值得注意的是，该分析未考虑Wayback Machine之外的其他较小网络存档中可能存在的同一条URL的存档；若计入，可访问URL的比例可能还会略增。此外，分析仅依赖HTTP状态码，未检查页面内容以识别“软404”（即错误页面却返回200 OK）或其他无关内容，这可能会微调数字。

皮尤数据集中有一个约100万条URL的子集，是2013年至2023年共11年间通用网页的样本。皮尤指出，该子集中约四分之一的URL在2023年已经死亡，越旧的URL损失比例越高，2013年的链接高达38%。作者复现了皮尤的年度图表（图2，原文未附图），并用橙色表示已死URL比例，绿色叠加表示被Wayback Machine拯救的URL。结果发现：2013年死亡的URL中，约有38%（相当于总数的约15%）被Wayback Machine拯救；而整个通用样本中累积被认为已死的URL中，约有一半被Wayback Machine拯救。值得注意的是，图2中最近三年（2021-2023）的URL几乎被完全拯救，但这只是因为Common Crawl近年的数据被批量导入Wayback Machine，而皮尤数据集恰好以Common Crawl为来源，存在偏差。

作者尝试获取Zittrain研究中约200万条《纽约时报》外部链接的数据集，但尚未成功。作为替代，作者自行构建了一个数据集：下载Wayback Machine中所有2013年《纽约时报》页面，提取所有外部链接，并排除指向nytimes.com本身的链接，最终获得约8.8万条URL。随后检查每条URL在实时网上的状态（最多跟踪5次重定向），并检查它们是否存在于Wayback Machine中。结果显示：2013年《纽约时报》外部链接中有40%在实时网上已死，但这些URL中有96%在Wayback Machine中有存档。这意味着只有约2%的URL已经从网络中彻底消失。不过，这一惊人数字需要谨慎对待：因为样本本身来自Wayback Machine中存在的页面，这些页面中的外部链接被存档的可能性天然高于不在Wayback Machine中的页面所链接的URL。作者表示，如果未来能获得Zittrain研究的原始URL样本，将重新审视这些数字。

近期最全面的链接腐烂纵向研究来自ODU（本文作者是该研究的合作者）。该研究分析了1996年至2021年期间从Wayback Machine索引中采样的2730万个URL。结果显示，所有采样URL中约有65%在检查时已在实时网上失效。不过，由于这些URL本身来自Wayback Machine索引，它们全部已被存档（即“Rescued”状态）。但ODU研究也发现，不同年份的URL在Wayback Machine中首次存档的时间存在很大差异：早期（1996-2000年）的URL往往在创建多年后才被存档，期间大量URL可能已永久消失。该研究还指出，即使URL被存档，存档版本也可能不完整（例如缺少图片、样式等），且存档本身也需要长期维护。

关键要点

链接腐烂是普遍且加速的现象：不同研究一致表明，随时间推移，越来越多网页链接失效。皮尤研究显示2013年网页38%在十年后死亡；ODU研究显示1996-2021年约65%采样URL失效；Ahrefs报告66.5%的链接在9年内失效。
Wayback Machine能有效拯救约一半的已死网页：在皮尤的540万条URL样本中，依赖Wayback Machine可将不可访问比例从25%降至10%（即拯救了约15%的总体和约50%的已死URL）。在《纽约时报》2013年外部链接样本中，Wayback Machine拯救了96%的已死链接。
存在“濒危”网页：约18%的实时存活URL尚未被任何网络存档。这些网页一旦在源站消失，就可能永远丢失。
数据偏差需警惕：基于Wayback Machine自身索引的研究（如ODU和本文的NYT替代样本）会高估拯救率，因为样本本身就有存档倾向。皮尤样本基于Common Crawl，相对更全面但仍存在近期的“信息摄入偏差”。
软404和内容缺失问题：研究仅依赖HTTP状态码，未检查软404或存档页面的内容完整性。实际可访问性可能比数字显示更差。
网页平均寿命极短：Internet Archive创始人Brewster Kahle指出网页平均

查看原文 →blog.archive.org

逝去网页重现：恢复已消失的网络内容

速览

AI 深度解读

背景

核心内容

关键要点

相关推荐