← 返回信息流
AI 资讯Hacker News·5 天前

CAPTCHA 仍能检测 AI 智能体

原标题:CAPTCHAs can still detect AI agents

速览

尽管 AI 代理在自然语言处理和视觉理解方面取得了显著进展,但最新研究证实,传统的 CAPTCHA 机制仍具备强大的防御能力。这项发现对于维护网络安全、防止自动化垃圾信息以及保护在线服务免受 AI 滥用具有重要意义。

AI 深度解读

CAPTCHA 依然能检测 AI 代理:从“结果相似”到“过程不同”

背景

随着人工智能系统在许多任务上的表现达到甚至超越人类水平,一个关键问题随之浮现:尽管 AI 的输出结果可能与人类无异,但其背后的认知处理过程却存在可测量的显著差异。这种差异为检测 AI 代理(AI agents)和在线机器人提供了新的可能性。

长期以来,CAPTCHA(全称为“Completely Automated Public Turing test to tell Computers and Humans Apart”,即全自动区分计算机和人类的图灵测试)被视为区分人类与机器的手段。然而,随着视觉语言模型(VLMs)和深度学习技术的进步,AI 能够轻松识别静态网格中的交通灯、消防栓等常见物体。这导致许多人认为传统的 CAPTCHA 已经失效,无法提供有价值的“人类信号”。

然而,这一观点并不完全准确。虽然 AI 在“输出结果”上可以完美匹配人类,但在“处理过程”上,AI 与人类的行为模式存在本质区别。基于此,Roundtable Technologies 的研究团队(Mayank Agrawal, Milena Rmus, 和 Mathew Hardy)提交了一篇机器学习会议论文,提出了一种名为 CogCAPTCHA30 的新框架,旨在通过深入分析认知过程来重新定义人机区分标准。

核心内容

1. CAPTCHA 并未真正“死亡”:过程优于结果

传统的 CAPTCHA 主要关注任务完成的准确性(即输出)。虽然深度学习早在 2010 年代初就“解决”了 CAPTCHA 式的图像分类问题,使得 AI 能够正确识别物体,但 AI 完成任务的方式与人类截然不同。

研究团队分析了人类和 AI 完成 CAPTCHA 的大量数据,发现两者在以下特征上存在统计学上的显著差异:

  • 连续点击模式:人类和 AI 在屏幕上的移动轨迹和点击序列不同。
  • 方向变化:鼠标或触点的运动方向改变频率和模式不同。
  • 过度选择行为:在多选任务中,人类和 AI 的选择策略存在偏差。

换句话说,AI 可以解决 CAPTCHA 问题,但它们解决问题的“路径”与人类不同。这种过程上的差异构成了新的检测基础。

2. 从图灵测试到“过程图灵测试”

1950 年,艾伦·图灵(Alan Turing)提出了经典的图灵测试,其核心标准是“行为不可区分性”:如果裁判无法可靠地区分机器和人类的回答,则机器被视为智能。图灵本人也承认,这是一个妥协性的标准,因为“智能”本身过于抽象。

受图灵启发,研究团队设计了 CogCAPTCHA30。这不仅是图灵测试的升级版,更是从“输出”(人类和代理能做什么)深入到了“过程”(它们是如何做的)。CogCAPTCHA30 将原始 CAPTCHA 与 29 个经典的认知心理学任务相结合,形成一个包含 30 个任务的测试电池。

研究招募了人类参与者并部署了 AI 代理执行这些任务。结果显示:

  • 输出等价性(Output Equivalence):人类和 AI 在任务完成准确率上表现相似。
  • 过程等价性(Process Equivalence):人类和 AI 到达答案的路径(即行为特征)完全不相关。

基于此,研究团队提出了过程图灵测试(Process Turing Test):衡量机器产生的“过程”是否与人类不可区分,而不仅仅是衡量“输出”。

3. 前沿模型并不比小模型更像人类

为了回答“哪种语言模型更像人类”这一问题,研究团队比较了人类与以下模型在过程特征空间中的距离:

  • 前沿闭源模型:OpenAI 的 GPT、Anthropic 的 Claude、Google DeepMind 的 Gemini。
  • 开源模型:Qwen(1.5B 参数基础模型)和 Centaur(70B 参数、专为模拟人类认知设计的开源基础模型)。

研究发现了一个反直觉的现象:最先进的(SOTA)前沿模型(Claude, GPT, Gemini)在过程特征上与人类的相似度,反而低于较小的开源模型(Qwen, Centaur)。

这验证了研究团队之前的观点:“AI 能力不等于人性(AI Capability isn't Humanness)”。随着 AI 变得日益强大,它们并没有变得更像人类。当代人工智能的进步与人类模拟的进步是相互独立的。

特别值得注意的是,Centaur 模型在模拟人类过程特征方面表现最佳。研究团队假设这是因为 Centaur 进行了大规模的输出微调,具体而言,是在 160 个认知实验中使用了超过 1000 万个人类选择数据进行训练。

4. 对抗鲁棒性与“过程图灵测试”的极限

研究进一步探讨了该检测方法的对抗鲁棒性。任何用于区分人机行为的特征都可能成为攻击者优化的目标。如果检测器仅在当前攻击者模型(即现有 AI 的运行方式)下有效,它可能无法成为未来技术的持久验证信号。

为了测试这一点,研究团队对 Qwen2.5 Instruct 模型进行了微调,使其尽可能接近人类行为。实验结果如下:

  • 完全信息下:当 AI 代理获得完整信息(包括观察到的特征和判别器的目标函数)时,人类与代理之间的过程差距消失。
  • 部分信息下:当特征空间的部分内容被隐藏时,差距重新出现。
  • 跨任务泛化下:当 AI 必须跨任务泛化时,差距完全恢复。

这表明,过程图灵测试在 AI 无法完全访问判别器和特征集(即模型不知道将被如何评估)时是鲁棒的。

关键要点

  • AI 可以破解 CAPTCHA,但无法模仿人类的操作过程:虽然 VLMs 能正确识别图像,但其点击模式、移动轨迹和选择行为与人类存在统计学显著差异。
  • CogCAPTCHA30 框架:结合原始 CAPTCHA 与 29 个认知心理学任务,从“输出”和“过程”两个维度全面评估人机差异。
  • 能力不等于拟人化:SOTA 模型(GPT, Claude, Gemini)在认知过程模拟上不如较小的开源模型(Qwen, Centaur)。AI 的强大并不等同于其内部机制更接近人类。
  • Centaur 模型的特殊性:通过大规模人类行为数据(10M+ 选择,160 个实验)微调的 Centaur 模型,在过程特征相似度上表现最佳,证明了数据质量和类型对模拟人类认知的重要性。
  • 过程图灵测试的鲁棒性:当 AI 无法完全获知检测机制和特征集时,过程差异依然显著。这意味着只要检测机制保持一定程度的黑盒性质,该方法就具有对抗性防御能力。
  • 指数级挑战:模拟人类认知心理学比一次性检查(如密码、设备指纹)要困难得多,这使得基于过程的验证成为一种更高级、更持久的安全手段。

意义与影响

这项研究对网络安全和身份验证领域具有深远意义。

首先,它挑战了“CAPTCHA 已死”的普遍认知。虽然传统的图像识别 CAPTCHA 确实容易被 AI 绕过,但基于认知过程分析的新型 CAPTCHA 依然有效。这为 Web 身份验证提供了一条新的技术路径:Proof of Human(人类证明)。

其次,它揭示了当前 AI 发展的一个盲点:我们过度关注模型的能力(Capability),而忽视了其认知机制(Process)与人类的本质差异。对于开发更透明、更可解释的 AI 系统,理解这些过程差异至关重要。

最后,Roundtable Technologies 正在构建的 Proof of Human 系统,旨在为 Web 提供一种“隐形”的身份验证方式。与传统的、干扰用户体验的验证码不同,基于过程图灵测试的验证可以在用户无感知的情况下完成,同时有效抵御自动化机器人的攻击。随着 AI 代理能力的不断提升,这种基于深层认知行为分析的验证手段,可能成为未来互联网信任体系的关键基础设施。

查看原文 →research.roundtable.ai