← 返回信息流
技术博客arXiv cs.AI·1 小时前

BFS与反射结合的网页数据收集智能代理BaRA问世

原标题:BaRA: BFS-and-Reflection Web Data Collection Agent

速览

本文介绍BaRA,一种基于大语言模型的网页数据收集框架。它结合了有界广度优先搜索遍历和基于历史的自我反思能力,在固定交互预算下实现站点级数据采集。 该框架特别针对真实网站问题,如遗漏相关页面、不完整多模态输出和不可下载媒体URL进行了优化。 实验中,BaRA在50个合成网站及3个公开网站上均优于纯LLM、SeeAct-Vision和Browser-use,在下载有效图像和视频方面表现突出。 这一成果为未来基于LLM的网络自动化工具提供了新思路,具有重要应用价值。

AI 深度解读

背景

随着大型语言模型(LLM)在网络抓取任务中应用越来越广泛,LLM-based Web Agents 的兴起为简化网页数据收集提供了一条重要路径。这些代理能够通过自然语言指令或简单交互,自动导航、提取和处理网页内容,从而大幅减少人工编写爬虫脚本的需求。然而,在实际的动态网站上,这些代理仍面临显著挑战:容易遗漏相关页面、生成的输出不完整(尤其在多模态任务中),或者返回的媒体链接无法直接下载。这些问题直接限制了其在真实场景下的有效性。

针对上述困境,本文提出了一种新的框架 BaRA(BFS-and-Reflection Agent),其核心是结合有限预算下的有界广度优先搜索(bounded BFS)与历史驱动的自反思机制,专注于实现站点级别的网页数据收集任务。该框架旨在通过严格控制交互次数,实现高效且可靠的数据收集。

核心内容

BaRA 框架设计用于在固定交互预算下的站点级数据收集。框架融合了有界广度优先搜索(bounded BFS)遍历策略与基于历史记录的自反思机制。前者从种子页面开始,系统地向外扩展搜索边界,确保覆盖尽可能多的相关链接,同时避免无限循环;后者则通过回顾以往交互轨迹,持续优化策略,修正错误或遗漏。

评估部分采用了两个维度:一是 50 个合成网站数据集,包含人工标注的参考集(ground-truth reference sets),用于精确测量任务性能;二是三个公开网站,涵盖布局混乱或动态变化的页面,进一步模拟真实世界场景。

在对比实验中,BaRA 显著优于三种基线方法:Pure LLM(纯 LLM 代理)、SeeAct-Vision(结合视觉能力的 SeeAct 框架)以及 Browser-use(浏览器级使用代理)。具体在两个核心指标上表现突出:

  • 链接发现(link discovery):BaRA 在发现并访问目标页面方面领先,为后续处理奠定基础。
  • 可下载多模态内容提取(downloadable multimodal extraction):尤其在图像和视频的下载有效性上获得最大增益,能够将页面中存在的媒体文件成功保存并处理。

此外,论文作者已将全部代码、数据和相关资源公开,方便后续研究和复现。

关键要点

  • BaRA 框架针对固定交互预算的站点级 Web 数据收集,融合有界广度优先搜索(bounded BFS)和历史自反思机制。
  • 在 50 个合成网站上进行评估,包含人工标注的 ground-truth 参考集,精确量化性能。
  • 额外在三个公开网站(布局混乱或动态)上测试,模拟真实场景。
  • 对比实验中,BaRA 优于 Pure LLM、SeeAct-Vision 和 Browser-use,在链接发现和可下载多模态提取上表现最佳,尤其在图像与视频下载有效性上获最大增益。
  • 研究代码已公开,便于后续使用。

意义与影响

BaRA 为 LLM-based Web Agents 提供了一种新型混合架构,有效解决了现有代理在动态网站中的“漏网”与“不可下载”两大痛点。这一突破不仅提升了数据收集的准确性和完整性,还为后续多模态网页理解与自动化任务开辟了实用路径。预计其方法论将在网页智能、爬虫技术、数据挖掘等领域产生广泛影响,推动更多研究向站点级、预算受控的代理方向演进,同时为企业级内容采集提供更可靠的技术支持。

查看原文 →arxiv.org