技术博客arXiv cs.AI·1 小时前

可验证代理框架让开放网络数据收集更安全

原标题：Making Failure Safe: A Constrained, Verifiable Agent Framework for Open-Web Data Collection

速览

arXiv论文提出一种受限且可验证的代理框架，将LLM输出改为带类型的JSON采集器配置，结合六大类型采集器分类、模板约束和静态Airflow DAG执行，实现高可靠的开放网络数据收集。实验在138个任务上验证分类支持描述式需求，并显示稳定运行需额外完成源字段和执行约束。80个独立验证任务中框架以最低平均运行时间运行且零LLM执行token，适合重复调度采集，具有可重用、低成本和确定性的优势。

AI 深度解读

Making Failure Safe: A Constrained, Verifiable Agent Framework for Open-Web Data Collection

背景

随着LLMs和AI代理在自然语言指导下生成网页爬虫（web scrapers）的能力不断提升，这在开放网络数据采集（open-web data collection）领域带来了巨大潜力。然而，直接由LLM生成代码的方式仍存在严重不稳定性，主要问题包括依赖错误（dependency errors）、选择器失效（broken selectors）、schema不匹配（schema mismatches）和页面结构异质性（heterogeneous page structures）。这些问题会导致爬虫在执行过程中频繁失败，影响数据采集的可靠性、效率和可重复性。

arXiv论文提出了一种受约束的、可验证的代理框架，旨在通过将LLM输出从自由形式的代码转变为结构化的JSON采集器配置，来显著提升数据采集的安全性和稳定性。该框架不仅解决了传统方法在复杂Web环境下的脆弱性，还为重复性任务提供了可重复、确定性的执行路径，适用于持续的开放网络数据收集需求。

核心内容

论文提出了一种受约束、可验证的代理框架，核心创新在于将LLM生成的输出从自由形式的代码（free-form code）严格限制为结构化的JSON采集器配置（typed JSON collector configurations）。这种转变有效避免了传统方法中因依赖错误、选择器损坏、schema不匹配以及页面结构异质性导致的执行失败。

框架的核心组件包括以下几个方面：

六类型采集器分类体系（six-type collector taxonomy）：该分类体系能够基于自然语言需求描述自动进行类型识别，支持描述驱动的类型指定（description-based requirement typing）。
模板和实用函数约束（template and utility-function constraints）：通过预定义的模板和工具函数，确保配置的合法性和可执行性。
静态Airflow DAG执行（static Airflow DAG execution）：利用Apache Airflow的静态DAG特性进行执行，无需在运行时调用额外的LLM token，从而实现完全确定的流程。
基于规则的质量检查（rule-based quality checking）：对采集结果进行规则驱动的验证。
结构化反馈修正（structured feedback correction）：通过反馈机制对潜在问题进行纠正。

实验部分在138个任务上验证了六类型分类体系的有效性，证明其支持基于描述的需求类型化。同时，研究确认了稳定实例化（stable instantiation）需要完成源、字段和执行约束等初始描述之外的补充信息。在80个独立源验证任务上，框架在执行阶段零使用LLM token的情况下，实现了最低的平均墙上时间（wall-clock time），以中等的一轮质量为代价，换取了可复用的、确定性的、可验证的执行路径，特别适合重复调度采集场景。

这些设计使得框架能够将LLM输出可靠地转化为可执行的采集器配置，适用于开放网络数据的持续收集。

关键要点

核心创新：将LLM输出从自由形式的代码转变为结构化的JSON采集器配置，通过受约束机制大幅提升执行稳定性。
分类体系：提出六类型采集器分类，支持基于自然语言描述的需求类型化。
约束机制：结合模板、实用函数、静态Airflow DAG执行和规则质量检查，确保配置的合法性与可重复执行。
反馈系统：采用结构化反馈修正机制，有效处理潜在错误。
实验验证：在138个任务上验证分类体系有效性；在80个独立源验证任务上实现零执行阶段LLM token消耗与最低墙上时间。
适用场景：特别适合重复性、调度性的开放网络数据采集，具有可复用和确定性的执行路径。

意义与影响

该框架为开放网络数据采集提供了一种可靠、安全且可验证的解决方案，有效解决了当前LLM代理在网页数据处理中的常见失败问题。其低成本、可重复执行的特点使其特别适合企业级或研究机构进行持续的数据收集任务。研究结果表明，这种受约束的架构不仅提升了数据采集的稳定性，还为未来更复杂的AI代理系统设计提供了可借鉴的范例，进一步推动了可解释性和可控AI技术在实际应用中的落地。未来，随着更多任务和数据集的扩展，该框架有望成为开放Web数据收集领域的标准实践。

查看原文 →arxiv.org