技术博客arXiv cs.AI·3 小时前

视觉语言模型搜索行为像人类吗

原标题：Do vision-language models search like humans? Reasoning tokens as a reaction-time analog in classic visual-search paradigms

速览

该研究通过经典视觉搜索范式，探究视觉语言模型（VLM）是否表现出与人类相似的搜索行为特征。作者将模型生成的推理token数量作为搜索努力的代理指标，并与人类基准数据进行对比。结果显示，VLM在特征搜索和平行搜索中表现出与人类相似的效率模式，但在目标存在与缺失的搜索斜率、枚举能力以及自适应推理策略上存在显著差异。这一发现表明，心理物理学范式可作为低成本且高效的工具，用于探测机器视觉认知的异同。

AI 深度解读

视觉-语言模型是否像人类一样进行视觉搜索？

来源：arXiv cs.AI 提交日期：2026年6月23日标题：Do vision-language models search like humans? Reasoning tokens as a reaction-time analog in classic visual-search paradigms

背景

视觉搜索（Visual Search）一直是研究视觉注意力机制中最具生产力的范式之一。在人类认知心理学中，反应时间（Reaction Time）随项目数量变化的缩放比例，是区分“并行搜索”（Parallel Search，即“弹出式”搜索，无需注意力集中）与“串行搜索”（Serial Search，即需要注意力资源的搜索）的关键指标。

随着视觉-语言模型（Vision-Language Models, VLMs）的兴起，研究人员开始关注这些人工智能系统是否表现出与人类相同的视觉认知行为特征。然而，VLMs 与传统人类受试者存在一个根本性的差异：单次模型调用（Model Call）是瞬间完成的，不存在生物学意义上的“反应时间”。因此，如何量化 VLMs 在视觉任务中的“认知努力”或“处理时间”，成为验证其是否具备类人视觉搜索机制的核心挑战。

核心内容

本研究通过适应性实验，探讨了前沿（Frontier）和中端（Mid-tier）VLMs 在经典视觉搜索范式中的行为表现。研究团队将四个经典的心理学范式应用于 VLMs，并引入“推理令牌（Reasoning Tokens）”作为衡量模型内部处理努力程度的代理指标，以此模拟人类的反应时间。

1. 实验范式与方法论

研究采用了以下四个经典视觉搜索范式：

特征搜索 vs. 联合搜索（Feature vs. Conjunction Search）：测试模型能否快速识别单一特征（如颜色或形状），以及是否需要在组合特征（如红色圆形）中进行逐项检查。
空间构型搜索（Spatial-Configuration Search）：即 T-vs-L 搜索，测试模型对空间排列的敏感度。
枚举（Enumeration）：测试模型对少量物体数量的精确计数能力。
倾斜/垂直搜索不对称性（Tilted/Vertical Search Asymmetry）：测试不同方向目标在背景中的检测难度差异。

关键创新点：由于 VLMs 没有物理反应时间，研究者使用模型在单次试验中消耗的推理令牌（Thinking Tokens）数量作为“搜索努力”的类比指标。这一指标被用来与 Wolfe 等人（2010）建立的大型公开人类基准数据进行对比。

2. 模型表现：与人类的一致性

实验结果显示，VLMs 成功复现了多项人类视觉搜索的行为签名：

搜索成本差异：特征搜索的成本（令牌消耗）保持平坦，不随项目数量增加而显著上升；而联合搜索的成本则随着集合大小（Set Size）的增加而攀升。这符合人类从并行搜索转向串行搜索的认知规律。
模型层级差异：前沿模型在联合搜索中保持了较高的准确率，而中端模型的表现则崩溃至随机猜测水平。
排除分辨率干扰：通过分辨率控制实验，研究证实联合搜索的成本确实源于“搜索”过程本身，而非仅仅因为难以分辨微小的形状细节。

3. 模型表现：与人类的显著分歧

尽管存在相似性，VLMs 在关键指标上也表现出与人类截然不同的行为模式，这些分歧提供了关于机器视觉认知本质的深刻洞察：

斜率反转：在人类中，目标存在（Target-present）的搜索斜率通常低于目标缺失（Target-absent）的斜率。然而，VLMs 表现出相反的模式：目标存在的努力斜率超过了目标缺失的斜率。
枚举能力的差异：VLMs 在枚举任务中保持高精度，而人类在数量较多时会丢失计数。这表明 VLMs 可能并未采用类似人类的有限容量计数机制，或者其机制完全不同。
自适应深思的缺失：在使用具有自适应深思（Adaptive Deliberation）能力的推理模型时，模型完全拒绝在检测任务上进行深思。这意味着，对于同一类搜索任务，人类表现为准确率的急剧下降（Accuracy Cliff），而 VLMs 则表现为内部处理努力度的梯度变化（Effort Gradient）。

关键要点

方法论创新：研究提出使用“推理令牌数量”作为 VLMs 视觉搜索努力的量化指标，成功解决了 AI 模型缺乏生物学反应时间的问题，为比较认知科学提供了新的工具。
行为相似性：VLMs 在特征搜索（并行）和联合搜索（串行）的成本差异上，重现了人类的经典行为签名，证明其具备某种形式的视觉注意力机制。
前沿 vs. 中端：只有前沿模型能够稳定复现人类的视觉搜索行为，中端模型在复杂任务中表现不佳，说明模型规模与类人视觉认知能力存在强相关性。
本质差异：
- VLMs 的目标存在/缺失搜索斜率顺序与人类相反。
- VLMs 在枚举任务上优于人类，暗示其计数机制非生物启发。
- VLMs 的“认知努力”体现为计算资源（令牌）的梯度分配，而非人类式的准确率断崖。
诊断价值：心理物理学范式作为一种行为测试，是探测机器视觉认知的高效且低成本手段。模型与人类的分歧点（Divergences）与共识点（Agreements）同样具有信息价值，有助于揭示机器智能的内在机制。

意义与影响

这项研究不仅验证了当前最先进的视觉-语言模型在视觉搜索任务中具备类人的行为特征，更重要的是，它揭示了 AI 与人类认知在底层机制上的根本差异。

评估框架的建立：研究确立了一套标准化的心理物理学测试框架，可用于快速、低成本地评估不同 VLMs 的视觉认知能力，而不仅仅依赖传统的图像识别准确率指标。
理解机器认知：通过观察 VLMs 在“推理令牌”消耗上的行为，研究人员可以推断模型内部的注意力分配策略。例如，目标存在时更高的努力斜率可能暗示模型在确认目标时进行了更复杂的验证过程，这与人类的直觉判断机制不同。
人机协作与差异：理解这些分歧对于构建更可靠的人机协作系统至关重要。例如，知道 VLMs 在枚举任务上不会像人类那样“数错”，但在搜索不对称性上表现异常，可以帮助人类用户更合理地分配任务，避免对 AI 产生不切实际的期望或过度信任。
未来研究方向：研究指出，自适应深思模型在检测任务中“拒绝深思”的现象，提示未来模型优化可能需要引入更细粒度的认知控制机制，使其能够像人类一样，根据任务难度动态调整认知资源的投入，而不是简单地跳过或全量投入。

总之，该研究通过跨学科的视角，将经典心理学范式应用于前沿 AI 模型，为理解机器视觉智能的本质提供了宝贵的实证数据。

查看原文 →arxiv.org