技术博客arXiv cs.AI·1 小时前

Visual-Seeker：通过主动视觉推理实现原生多模态智能体搜索

原标题：Visual-Seeker: Towards Visual-Native Multimodal Agentic Search via Active Visual Reasoning

速览

针对多模态大模型在复杂场景中事实 grounding 能力不足的问题，研究者提出 Visual-Seeker，这是一种通过主动视觉推理实现的原生多模态深度搜索智能体。该智能体不再将视觉视为静态输入，而是主动关注细粒度视觉细节并动态收集证据。研究团队设计了主动视觉推理数据流水线并合成高质量轨迹进行训练。实验表明，Visual-Seeker 在五个多模态搜索基准上达到最先进水平，甚至超越多个专有模型。

AI 深度解读

Visual-Seeker：通过主动视觉推理实现视觉原生的多模态智能体搜索

背景

多模态大语言模型（Multimodal Large Language Models, MLLMs）在诸多视觉任务中展现出了令人印象深刻的能力。然而，当面对复杂的开放世界场景时，这些模型往往难以实现准确的事实 grounding（事实锚定/依据）。

为了解决这一问题，近期出现的多模态深度搜索智能体（Multimodal Deep Search Agents）尝试利用外部工具来增强其能力。尽管已有进展，但“视觉原生（Visual-Native）”的搜索范式仍处于探索阶段。现有的方法主要依赖具有明确语义的简单图像，且证据轨迹仅由文本构成。这种局限性限制了智能体进行多跳（multi-hop）、跨模态推理和搜索的能力，导致其在处理需要深度视觉理解的任务时表现不佳。

核心内容

针对上述局限性，研究团队提出了 Visual-Seeker，这是一个基于主动视觉推理（Active Visual Reasoning）的视觉原生多模态深度搜索智能体。

1. 核心理念：从被动输入到主动推理

与传统方法将视觉视为静态输入不同，Visual-Seeker 的核心创新在于“主动性”。该智能体能够主动关注细粒度的视觉细节，并在整个搜索过程中动态地采集视觉证据。这意味着模型不再仅仅依赖预提取的图像特征，而是像人类一样，在搜索过程中主动去“看”、去“寻找”关键视觉信息，从而构建更完整的推理链条。

2. 数据管道与训练

为了释放视觉原生的潜力，研究团队设计了一套主动视觉推理数据管道（Active Visual Reasoning Data Pipeline）。通过该管道，他们合成并构建了 5,000 条高质量的多模态轨迹数据，用于模型训练。这些数据专门针对主动视觉推理场景进行了优化，旨在提升模型在复杂搜索任务中的表现。

3. 实验验证

在五个具有挑战性的多模态搜索基准测试中，Visual-Seeker 进行了广泛的实验评估。结果表明，该模型取得了最先进（State-of-the-Art, SOTA）的性能。值得注意的是，Visual-Seeker 甚至在某些指标上超越了多个专有模型（Proprietary Models）。这一结果验证了其在真实网络环境中具备强大的视觉原生推理和搜索能力。

关键要点

范式转变：从“文本主导、视觉辅助”转向“视觉原生”，强调视觉信息在搜索推理中的核心地位，而非仅作为静态背景。
主动视觉推理：智能体不再被动接收图像，而是主动关注细粒度视觉细节，动态采集证据，支持多跳、跨模态的深度推理。
数据合成创新：设计了专门的主动视觉推理数据管道，合成了 5K 高质量多模态轨迹数据，解决了训练数据匮乏的问题。
性能领先：在五个主流多模态搜索基准上达到 SOTA 水平，性能优于部分闭源专有模型，证明了其在真实 Web 环境中的有效性。
开源贡献：代码和数据已公开（via alphaXiv/Hugging Face 等关联平台），促进了社区对视觉原生搜索范式的进一步研究。

意义与影响

Visual-Seeker 的提出标志着多模态智能体搜索领域的一个重要进展。它揭示了现有方法在处理复杂开放世界任务时的不足，即过度依赖文本证据和简单视觉输入，忽视了视觉信息在动态推理中的潜力。

通过引入“主动视觉推理”，Visual-Seeker 为构建更智能、更可靠的多模态 AI 助手提供了新的思路。它不仅提升了模型在事实性查询和复杂视觉任务中的准确性，也为未来探索更复杂的跨模态交互奠定了基础。随着视觉原生搜索范式的深入，我们有望看到 AI 系统在理解真实世界视觉复杂性方面取得更大突破，从而在搜索引擎、智能客服、辅助决策等领域发挥更关键的作用。

查看原文 →arxiv.org