AI 资讯Hacker News·3 小时前

无法阻止信号，只能投毒

原标题：Can't Stop the Signal. Poison It

速览

在通信或信息传播领域，彻底阻断信号往往难以实现。因此，策略转向通过注入噪声或虚假信息来污染信号，从而降低其有效性或可信度。

AI 深度解读

无法阻挡信号，只能投毒：Anubis 与反爬虫的博弈

背景

随着生成式 AI 的爆发式增长，大型科技公司对互联网公开数据的渴求达到了前所未有的高度。为了训练大语言模型（LLM），这些公司广泛使用自动化爬虫（scraper）大规模抓取网站内容。这种“侵略性”的数据采集行为不仅占用了目标网站的服务器带宽和计算资源，还常常导致网站服务不稳定甚至宕机，使得正常用户的访问变得困难。

在这种背景下，网站管理员面临着两难选择：完全开放数据会助长滥用，完全封闭数据则可能影响用户体验和 SEO。传统的验证码（CAPTCHA）虽然有效，但体验糟糕且容易被先进的 AI 绕过。因此，一种新的防御机制应运而生——Anubis。它并非旨在彻底阻止访问，而是通过增加攻击成本来“投毒”或干扰自动化爬虫，从而保护服务器资源。

核心内容

Anubis 是一个由网站管理员部署的保护方案，旨在抵御 AI 公司大规模抓取网站数据的行为。其核心逻辑并非简单地拒绝访问，而是通过引入计算负担来区分“人类用户”和“自动化爬虫”。

1. 工作原理：基于 Proof-of-Work（工作量证明） Anubis 采用了类似于 Hashcash 的工作量证明（PoW）机制。Hashcash 最初被提议用于减少电子邮件垃圾邮件。其基本思路是：

个体层面：对于单个正常用户而言，执行这些计算任务所消耗的时间和资源微乎其微，几乎可以忽略不计。
大规模层面：对于试图抓取数百万页面的自动化爬虫来说，每一次请求都需要进行额外的计算。当这种负担累积到大规模并发请求时，计算成本将急剧上升，使得大规模抓取在经济和技术上变得不可行或极具挑战性。

2. 临时性与过渡性 文章明确指出，Anubis 目前只是一个“占位符解决方案”（placeholder solution）。它的主要目的是为网站管理员争取时间，以便开发更高级、更精准的识别技术。未来的方向是通过浏览器指纹识别（fingerprinting）来区分人类和机器，例如通过分析字体渲染（font rendering）的差异、Canvas 指纹等技术特征。一旦这些技术成熟，Anubis 将不再需要向被识别为合法的人类用户展示挑战页面。

3. 技术依赖与兼容性警告 Anubis 的实现依赖于现代 JavaScript 功能。这意味着使用某些隐私保护插件（如 JShelter）的用户可能会遇到问题，因为这些插件通常会禁用或修改 JavaScript 行为以保护隐私。因此，Anubis 明确要求用户在使用该域名时禁用 JShelter 或类似的 JavaScript 限制插件，否则无法完成验证流程。

关键要点

防御目标：Anubis 专门针对 AI 公司大规模、侵略性地抓取网站数据的行为，旨在减轻服务器负载并防止因资源耗尽导致的宕机。
成本不对称策略：利用 PoW 机制制造成本不对称。人类用户承担极小的额外成本，而自动化爬虫在大规模并发下将承担巨大的计算成本。
非永久性方案：这是一个过渡性措施，旨在为更先进的“浏览器指纹识别”和“无头浏览器检测”技术的开发争取时间。
识别未来方向：未来的防御重点将转向分析浏览器行为特征（如字体渲染方式），以实现对合法用户的无感验证。
插件兼容性冲突：Anubis 需要现代 JavaScript 支持，与 JShelter 等禁用或修改 JS 的隐私插件存在冲突，用户需手动调整设置才能正常使用。

意义与影响

Anubis 的出现反映了互联网基础设施在面对 AI 数据饥渴时的被动防御姿态。它标志着反爬虫策略从简单的“黑白名单”或“验证码”向“经济成本博弈”和“行为指纹分析”演进。

数据获取成本的重新定义：通过 PoW 机制，网站管理员实际上是在对数据访问征收“计算税”。这将迫使 AI 公司重新评估其数据抓取策略，可能促使它们转向更合规的数据授权模式，或者投入更多资源优化爬虫效率以抵消这部分成本。
隐私与安全的平衡难题：Anubis 要求用户禁用隐私插件，这凸显了网络安全措施与用户隐私保护之间的潜在冲突。随着此类防御措施的普及，用户可能需要在“访问网站”和“保护隐私”之间做出妥协。
技术军备竞赛升级：随着 PoW 成为常见手段，AI 公司可能会开发专门的硬件或算法来加速 PoW 计算，而网站管理员则需不断升级指纹识别技术。这是一场持续的猫鼠游戏，最终将推动浏览器安全和反欺诈技术的整体进步。
对普通用户的影响：虽然 Anubis 旨在保护服务器，但其引入的额外验证步骤和插件兼容性要求，可能会给部分技术敏感型用户带来不便。然而，对于大多数普通用户而言，这种体验优于传统的繁琐验证码，且有助于维持网站的稳定运行。

总之，Anubis 是互联网在面对 AI 数据滥用时的一种务实且创新的防御尝试，它通过增加攻击者的边际成本来维护生态平衡，同时也为更智能、更无感的安全验证技术铺平了道路。

查看原文 →blog.digitalgrease.dev