技术博客arXiv cs.AI·6 天前

OpenClawBench：对真实世界智能体执行轨迹中的进程侧异常进行基准测试

原标题：OpenClawBench: Benchmarking Process-side Anomalies in Real-world Agent Execution Trajectories

速览

研究指出智能体在通过最终任务验证时，仍可能存在未解决的歧义、不安全写入等进程侧异常，即“结果-过程差距”。为此，研究引入了OpenClawBench，这是一个包含31,264条标注轨迹的大规模数据集，用于衡量和监督真实智能体执行过程中的异常。实验表明，仅评估成功率会遗漏具体的进程侧故障，而基于该数据集训练的检测器能有效识别这些异常。该数据集为研究、诊断和监控运行时智能体可靠性提供了可审计的监督数据。

AI 深度解读

OpenClawBench：在真实智能体执行轨迹中基准测试进程侧异常

背景

在人工智能智能体（Agent）的开发与评估领域，传统的评估范式往往聚焦于“结果正确性”。也就是说，只要智能体最终完成了既定任务或通过了任务预言机（Task Oracle）的验证，通常就被视为成功。然而，这种仅关注最终输出的评估方式存在一个巨大的盲区：任务成功可能掩盖了执行过程中的异常。

在实际的智能体运行中，一个智能体可能在最终结果上“蒙混过关”，但在执行过程中却积累了大量未解决的歧义、不安全的外部写入、被忽略的错误、缺乏事实依据的承诺，或是超出了其能力边界的过度承诺。这种“结果成功”与“过程健康”之间的脱节，被称为结果-过程鸿沟（Outcome-Process Gap）。

为了填补这一评估空白，研究人员引入了 OpenClawBench。这是一个大规模数据集，旨在测量和监督真实智能体执行过程中的进程侧异常。它不仅仅关注智能体“做对了什么”，更关注智能体是“如何做到的”，从而为研究、诊断和运营监控运行时智能体的可靠性提供可审计且可重用的监督数据。

核心内容

OpenClawBench 的核心在于构建了一个能够对齐任务结果与结构化进程证据的数据集，并由此衍生出一套完整的异常监督体系。以下是该工作的详细技术细节：

1. 数据来源与规模

OpenClawBench 构建于由 BFCL（BigCodeBench Logic? 此处指代基准测试框架驱动） 驱动的 OpenClaw 会话之上。

模型来源：数据源自 6 个不同的源模型生成的执行会话。
数据规模：包含 31,264 条经过标注的智能体执行轨迹（Trajectories）。
对齐机制：数据集将任务预言机的最终结果与结构化的进程证据进行了对齐，确保每一段执行日志都有明确的上下文和结果对应。

2. FullTax：结构化异常监督框架

为了将非结构化的执行日志转化为可计算的监督信号，研究团队提出了 FullTax 框架。FullTax 将对齐后的轨迹转化为多维度的结构化异常监督数据，具体包括：

二元标签（Binary Labels）：判断该轨迹是否存在进程侧异常。
支持证据（Supporting Evidence）：提供证明异常存在的具体日志片段或行为记录。
** onset/span 定位（Onset/Span Localization）**：精确定位异常发生的起始点和持续范围。
严重程度（Severity）：评估异常对系统稳定性的影响等级。
可恢复性（Recoverability）：判断异常发生后系统是否具备自我修复或人工干预恢复的能力。
5类异常分类法（5-class Anomaly Taxonomy）：对异常类型进行标准化分类。

3. “结果-过程鸿沟”的量化实证

通过 OpenClawBench，研究团队首次量化了“结果-过程鸿沟”的严重程度。

数据洞察：在总共 31,135 条通过任务预言机（即任务成功）的执行案例中，仍有 2,904 条被 FullTax 标记为存在进程侧异常。
结论：这意味着近 9.3% 的“成功”案例实际上隐藏着进程层面的失败。仅依靠成功率评估会遗漏真实智能体执行中具体的一类进程侧故障。

4. 异常检测器的训练与验证

为了验证该数据集在自动化监控中的有效性，研究团队使用 FullTax 监督池中的高置信度数据，对 Gemma 3 12B 模型进行了 LoRA 微调，构建了一个异常检测器。

性能表现：在保留的、标签更干净的测试集上，该检测器达到了 F1 分数 0.729。
意义：这证明了利用 OpenClawBench 训练出的模型能够有效识别真实执行日志中的进程异常，具备实际部署的潜力。

关键要点

重新定义“成功”：任务最终成功并不等同于执行过程健康。智能体可能在通过最终检查的同时，积累了未解决的歧义、不安全操作或能力越界。
OpenClawBench 的独特性：这是一个大规模（31,264 条轨迹）、多模型（6 个源模型）的真实世界智能体执行数据集，专门用于测量进程侧异常。
FullTax 框架的多维监督：不仅提供简单的对错标签，还包含证据、定位、严重程度、可恢复性及分类法，为细粒度的故障诊断提供了结构化数据基础。
鸿沟的普遍性：实证数据显示，在通过预言机的案例中，仍有约 9.3% 存在进程异常，证明“唯结果论”评估的局限性。
可检测性与自动化潜力：基于该数据集微调的 Gemma 3 12B 检测器在测试集上取得了 0.729 的 F1 分数，表明进程异常是可以被自动化检测和监控的。

意义与影响

OpenClawBench 的发布对智能体（Agent）领域的研究与工程实践具有深远影响：

推动评估范式的转变：它促使社区从单一的“结果导向”评估转向“过程+结果”的双重评估。这对于构建高可靠性、高安全性的智能体系统至关重要，特别是在金融、医疗、自动驾驶等容错率极低的领域。
提供可审计的监控基础设施：通过将非结构化的执行日志转化为结构化的异常监督数据，OpenClawBench 为运营监控（Operational Monitoring）提供了标准化的基础设施。开发者可以利用这些数据构建实时监控系统，及时发现并阻断潜在的风险行为。
加速故障诊断与修复研究：详细的异常分类、定位和证据支持，使得研究人员能够更深入地理解智能体失败的根源。这不仅有助于改进模型架构，还能优化提示工程（Prompt Engineering）和工具调用策略。
促进开源生态与标准化：作为一个公开的大规模数据集，OpenClawBench 为学术界和工业界提供了一个共同的基准，有助于建立进程侧异常检测的行业标准，推动智能体可靠性研究的协同发展。

总之，OpenClawBench 不仅是一个数据集，更是一种新的视角：它提醒我们，智能体的可靠性不仅体现在它能否完成任务，更体现在它完成任务的方式是否安全、稳健且可解释。

查看原文 →arxiv.org