技术博客arXiv cs.AI·1 小时前

BFS与反射结合的网页数据收集智能代理BaRA问世

原标题：BaRA: BFS-and-Reflection Web Data Collection Agent

速览

本文介绍BaRA，一种基于大语言模型的网页数据收集框架。它结合了有界广度优先搜索遍历和基于历史的自我反思能力，在固定交互预算下实现站点级数据采集。该框架特别针对真实网站问题，如遗漏相关页面、不完整多模态输出和不可下载媒体URL进行了优化。实验中，BaRA在50个合成网站及3个公开网站上均优于纯LLM、SeeAct-Vision和Browser-use，在下载有效图像和视频方面表现突出。这一成果为未来基于LLM的网络自动化工具提供了新思路，具有重要应用价值。

AI 深度解读

背景

随着大型语言模型（LLM）在网络抓取任务中应用越来越广泛，LLM-based Web Agents 的兴起为简化网页数据收集提供了一条重要路径。这些代理能够通过自然语言指令或简单交互，自动导航、提取和处理网页内容，从而大幅减少人工编写爬虫脚本的需求。然而，在实际的动态网站上，这些代理仍面临显著挑战：容易遗漏相关页面、生成的输出不完整（尤其在多模态任务中），或者返回的媒体链接无法直接下载。这些问题直接限制了其在真实场景下的有效性。

针对上述困境，本文提出了一种新的框架 BaRA（BFS-and-Reflection Agent），其核心是结合有限预算下的有界广度优先搜索（bounded BFS）与历史驱动的自反思机制，专注于实现站点级别的网页数据收集任务。该框架旨在通过严格控制交互次数，实现高效且可靠的数据收集。

核心内容

BaRA 框架设计用于在固定交互预算下的站点级数据收集。框架融合了有界广度优先搜索（bounded BFS）遍历策略与基于历史记录的自反思机制。前者从种子页面开始，系统地向外扩展搜索边界，确保覆盖尽可能多的相关链接，同时避免无限循环；后者则通过回顾以往交互轨迹，持续优化策略，修正错误或遗漏。

评估部分采用了两个维度：一是 50 个合成网站数据集，包含人工标注的参考集（ground-truth reference sets），用于精确测量任务性能；二是三个公开网站，涵盖布局混乱或动态变化的页面，进一步模拟真实世界场景。

在对比实验中，BaRA 显著优于三种基线方法：Pure LLM（纯 LLM 代理）、SeeAct-Vision（结合视觉能力的 SeeAct 框架）以及 Browser-use（浏览器级使用代理）。具体在两个核心指标上表现突出：

链接发现（link discovery）：BaRA 在发现并访问目标页面方面领先，为后续处理奠定基础。
可下载多模态内容提取（downloadable multimodal extraction）：尤其在图像和视频的下载有效性上获得最大增益，能够将页面中存在的媒体文件成功保存并处理。

此外，论文作者已将全部代码、数据和相关资源公开，方便后续研究和复现。

关键要点

BaRA 框架针对固定交互预算的站点级 Web 数据收集，融合有界广度优先搜索（bounded BFS）和历史自反思机制。
在 50 个合成网站上进行评估，包含人工标注的 ground-truth 参考集，精确量化性能。
额外在三个公开网站（布局混乱或动态）上测试，模拟真实场景。
对比实验中，BaRA 优于 Pure LLM、SeeAct-Vision 和 Browser-use，在链接发现和可下载多模态提取上表现最佳，尤其在图像与视频下载有效性上获最大增益。
研究代码已公开，便于后续使用。

意义与影响

BaRA 为 LLM-based Web Agents 提供了一种新型混合架构，有效解决了现有代理在动态网站中的“漏网”与“不可下载”两大痛点。这一突破不仅提升了数据收集的准确性和完整性，还为后续多模态网页理解与自动化任务开辟了实用路径。预计其方法论将在网页智能、爬虫技术、数据挖掘等领域产生广泛影响，推动更多研究向站点级、预算受控的代理方向演进，同时为企业级内容采集提供更可靠的技术支持。

查看原文 →arxiv.org

BFS与反射结合的网页数据收集智能代理BaRA问世

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐