技术博客arXiv cs.AI·2 小时前

通过智能体轨迹剖析模型行为差异

原标题：Dissecting model behavior through agent trajectories

速览

AI智能体性能不仅取决于模型能力，更受系统框架影响，存在模型意图与执行行为的差距。研究团队开发了Simple Strands Agent (SSA)框架，在多个基准测试中复现或提升了主流模型的性能。通过对13.8万条智能体轨迹的分析，利用代码状态空间揭示了不同模型在问题解决过程中的细微行为差异。

AI 深度解读

通过智能体轨迹剖析模型行为

背景

在人工智能领域，智能体（AI Agent）的性能表现不仅仅是一个模型层面的问题，本质上更是一个系统工程问题。尽管底层大语言模型（LLM）具备先进的推理与生成能力，但这些能力的实际落地依赖于“智能体 harness”（即智能体框架/执行环境）。

然而，在实际应用中，模型内部的假设与 harness 的行为之间往往存在脱节。这种脱节会导致模型的潜在能力无法充分转化为最终的智能体性能表现。传统的评估往往聚焦于最终的通过率（pass@1），而忽略了模型在解决问题过程中的动态行为差异。

核心内容

本文提出并形式化了**“意图-执行”差距（intent-execution gap）**这一概念，即模型“意图”做的事情与 harness “实际执行”的事情之间的不匹配，反之亦然。作者认为，缩小这一差距与工具选择、执行循环等 harness 设计要素同样重要。

为了验证这一假设并量化 harness 与模型的对齐效果，研究团队开发了一个简单且可定制的框架，称为 Simple Strands Agent (SSA)。SSA 旨在捕捉跨不同模型家族（如 Claude、Gemini、GPT、Grok、Qwen 等）的通用模式，同时也识别少数特定于模型的偏好行为。

研究主要包含两项核心贡献：

基准性能复现与提升：利用 SSA 框架，作者在流行的智能体基准测试中复现或提升了多家模型提供商报告的 pass@1 性能。测试基准包括：
- SWE-Pro
- SWE-Verified
- Terminal-Bench-2
基于轨迹的深度行为分析：基于 SSA 生成的 138k（13.8万）条轨迹数据，研究超越了单纯的 pass@1 指标（该指标在前沿模型间往往差异不大）。通过将智能体轨迹表示为代码状态空间（code state-spaces），作者观察到了模型在解决问题行为层面的细微差异。

研究引入了更细粒度的指标来揭示不同模型在自主解决问题各个阶段如何分配精力，包括：
- 编辑频率（edit frequency）
- 测试活动（testing activity）
- 阶段转换（phase-transitions）
这些指标帮助理解模型是从“规划”转向“执行”，还是从“调试”转向“重构”，从而揭示了不同模型在解决复杂代码任务时的策略差异。

关键要点

智能体性能是系统工程问题：模型能力向智能体性能的转化效率，取决于模型假设与 harness 行为之间的对齐程度。
“意图-执行”差距（Intent-Execution Gap）：这是导致模型能力流失的关键因素，指模型意图与 harness 实际执行之间的错位。最小化这一差距是提升智能体性能的关键。
SSA 框架的作用：Simple Strands Agent (SSA) 是一个轻量级、可定制的 harness，用于标准化评估流程，消除因框架差异带来的噪音，从而更纯粹地比较模型行为。
超越 pass@1 的评估视角：仅仅看最终是否通过测试（pass@1）不足以区分前沿模型。通过代码状态空间分析轨迹，可以发现模型在解题策略、试错成本和阶段转换上的本质区别。
细粒度行为指标的价值：
- 编辑频率：反映模型修改代码的激进或保守程度。
- 测试活动：反映模型对验证环节的依赖程度。
- 阶段转换：反映模型在规划、编码、调试等不同阶段的时间/步骤分配效率。
跨模型通用性与特异性：SSA 分析既发现了跨模型家族（Claude, Gemini, GPT, Grok, Qwen 等）的共性模式，也识别出了特定模型的独特偏好。

意义与影响

这项研究对 AI 智能体开发者和研究者具有重要的指导意义：

重新定义优化方向：它提醒开发者，提升智能体性能不能仅靠堆砌模型参数或改进 prompt，必须高度重视 harness 的设计，特别是如何减少“意图-执行”差距。
提供更精细的模型评估体系：传统的 pass@1 指标在前沿模型间趋于饱和，缺乏区分度。本文提出的基于轨迹状态空间的分析方法，为模型能力的微观评估提供了新工具，有助于识别不同模型在特定任务类型（如长代码生成、复杂调试）上的优劣。
促进模型与框架的解耦研究：通过 SSA 这样的标准化框架，可以在不同模型家族之间进行更公平、更深入的横向对比，揭示出隐藏在最终结果背后的行为逻辑差异。
推动智能体工程化落地：理解模型在“编辑”、“测试”和“阶段转换”中的行为模式，有助于设计更智能的自动化调试循环和错误处理机制，从而构建更鲁棒的工业级智能体系统。

查看原文 →arxiv.org