技术博客arXiv cs.AI·14 小时前

STAGE-Claw：基于状态的自动化智能体基准测试框架

原标题：STAGE-Claw: Automated State-based Agent Benchmarking for Realistic Scenarios

速览

针对现有智能体评估依赖沙盒和静态任务的局限，研究提出STAGE-Claw自动化框架。该框架能根据任务提示自动生成包含环境、提示词及验证程序的真实基准测试任务。评估重点从文本回复转向最终系统状态的正确性，为可靠评估个人智能体提供可扩展方案。

AI 深度解读

STAGE-Claw：面向真实场景的自动化基于状态的智能体基准测试

背景

随着大型语言模型（LLMs）能力的不断提升，它们正日益被用于驱动日常应用中的个人智能体（Personal Agents）。然而，如何准确、有效地评估这些智能体的表现，仍然是当前人工智能领域面临的一大挑战。

现有的评估基准（Benchmarks）存在明显的局限性：它们通常依赖于沙盒化的孤立环境（sandboxed artifacts）、静态的任务设计以及粗糙的评分机制。这种评估方式不仅难以扩展，更限制了我们在构建可靠个人智能体评估体系方面的进展。由于缺乏对真实用户交互环境的模拟，传统基准往往无法反映智能体在复杂、动态的现实世界中的实际表现。

核心内容

为了解决上述问题，本文引入了 STAGE-Claw，这是一个用于构建和评估基于状态的个人计算环境中真实个人智能体场景的自动化框架。

自动化任务生成与验证

STAGE-Claw 的核心创新在于其自动化流程。给定一个任务提示（task hint），该框架能够自动生成并验证一个完整的基准测试任务。这一过程包括：

环境构建：创建逼真的运行环境。
任务提示生成：设计具体的用户指令。
确定标准答案（Ground Truth）：明确任务成功的最终状态。
生成验证程序：编写用于自动检查任务完成情况的代码。

基于状态的评估机制

与传统仅关注智能体生成的文本回复不同，STAGE-Claw 在真实的操作系统环境中评估智能体。其性能衡量标准是最终系统状态的正确性（correctness of the final system state）。这意味着评估不仅看智能体“说了什么”，更看重它“做了什么”以及操作结果是否符合预期。

实验与数据分析

利用 STAGE-Claw 框架，研究团队构建了包含 40 个具有挑战性的真实场景智能体任务的基准测试集，并对 11 个前沿模型进行了评估。分析维度包括：

任务得分
执行成本
工具调用（Tool-call）的可靠性
常见的失败模式

关键要点

突破传统局限：STAGE-Claw 摒弃了传统基准中静态、沙盒化的评估方式，转向基于状态的、动态的真实场景评估。
全流程自动化：从任务提示到环境搭建、标准答案确定及验证程序生成，整个过程实现了自动化，极大提高了基准测试的可扩展性。
结果导向评估：评估核心在于最终系统状态的正确性，而非仅仅依赖文本生成的质量，这更贴合个人智能体在现实生活中的实际用途。
全面的能力画像：通过对 11 个前沿模型的测试，不仅提供了任务得分，还深入分析了成本效率、工具调用可靠性及失败模式，为模型选型和优化提供了多维度的参考。
解决可扩展性难题：通过自动化框架，解决了真实场景基准测试难以大规模构建和复现的问题，为个人智能体的标准化评估提供了可行路径。

意义与影响

STAGE-Claw 的提出标志着智能体评估从“文本生成测试”向“系统状态验证”的重要转变。

首先，它提供了一种可扩展的、基于状态的评估方法，使得在真实用户场景中评估智能体成为可能。这对于推动个人智能体从实验室走向实际应用至关重要，因为真实世界的环境是动态且复杂的，仅靠静态测试无法保证智能体的可靠性。

其次，该框架揭示了当前前沿模型在工具调用可靠性和复杂任务执行中的常见失败模式。这些洞察有助于研究人员和开发者针对性地改进模型架构、优化工具使用策略，从而提升智能体的鲁棒性。

最后，STAGE-Claw 建立的基准测试集和分析结果为行业提供了一个新的参考标准。随着个人智能体在日常生活和工作中的应用日益普及，这种能够反映真实表现能力的评估体系，将有助于加速技术的成熟与落地，推动人工智能代理（AI Agents）向更可靠、更实用的方向发展。

查看原文 →arxiv.org