技术博客arXiv cs.AI·1 小时前

LemonHarness：构建显式边界提升长周期智能体执行稳定性

原标题：LemonHarness Technical Report

速览

LemonHarness是一个面向长周期智能体的集成执行框架，旨在解决多轮迭代中工作区状态难以追踪的问题。该框架通过约束状态变更操作、引入可复用的规则知识库以及时间感知执行机制，实现了模型调用、工具执行与规则知识的统一控制。实验显示，在Terminal-Bench 2.0上，该框架配合不同大模型显著提升了任务准确率，证明了统一运行时边界对增强智能体稳定性的有效性。

AI 深度解读

LemonHarness Technical Report 深度解读

背景

随着大型语言模型（LLM）智能体（Agents）被应用于更复杂、更长期的任务中，它们需要在多轮迭代中不断修改工作区状态。然而，当前的智能体架构存在一个显著的观测盲区：智能体通常只能观察到工具的输出结果和日志片段，而实际的状态变更（如文件写入、依赖安装等）发生在文件系统层面。

在没有明确工作区边界约束的情况下，这些改变状态的操作往往会导致变更散落在不同的路径中。随着时间推移，这些缺乏强约束的变更不断累积，使得跟踪已修改的文件、临时生成的工件等状态变得极其困难。这种状态追踪的缺失，严重影响了长周期智能体任务的稳定性和可调试性。

核心内容

为了解决上述问题，本文提出了 LemonHarness，一个专为长周期智能体设计的集成执行框架。LemonHarness 的核心设计理念是通过建立明确的执行边界，将模型调用、工具执行和规则知识统一在一个受控的边界内，从而实现对状态变更的显式管理。

1. 显式的执行边界与结构化交互

LemonHarness 通过限制状态改变操作在清晰定义的工作区内进行，建立了显式的执行边界。所有涉及状态变更的操作，包括文件写入、依赖安装以及临时工件的创建，均通过结构化的工具接口执行。

关键在于，这些操作的执行反馈会被记录为“观察结果”（observations），并直接提供给后续的模型决策过程。这意味着智能体不再仅仅依赖模糊的日志，而是能够基于结构化的状态反馈来调整其后续行为，从而实现对文件系统状态的精确追踪。

2. 可复用的规则知识库

系统引入了一套可复用的规则知识库（Rule Knowledge Base）。这一机制将重复出现的执行规则和验收标准转化为运行时知识（Runtime Knowledge）。通过将隐性的最佳实践或硬性约束显式化，智能体在执行过程中能够自动遵循这些规则，减少了因规则理解偏差导致的错误执行。

3. 时间感知的执行机制

LemonHarness 还引入了时间感知执行机制（Time-aware Execution Mechanism）。该机制向模型暴露已用时间和剩余预算（elapsed and remaining budget）。通过感知时间压力，智能体能够动态重新平衡探索（exploration）、实现（implementation）和验证（validation）的工作量分配。这种机制旨在避免由于长时间等待或过度验证导致的超时问题，提高任务执行的效率。

4. 性能表现

在 Terminal-Bench 2.0 基准测试中，LemonHarness 展现了显著的性能提升：

使用 GPT-5.3-CodeX 作为后端，在 445 次试验中达到了 84.49% 的准确率。
当搭配更强的 GPT-5.5 骨干模型时，平均准确率进一步提升至 86.52%（基于五项任务）。

关键要点

解决状态追踪难题：针对长周期智能体中文件系统状态变更难以追踪的问题，LemonHarness 通过建立显式的工作区边界和结构化工具接口，将隐式的文件操作转化为显式的模型可观测反馈。
统一执行边界：将模型调用、工具执行和规则知识整合在单一受控边界内，消除了操作分散带来的状态不一致风险。
运行时规则转化：通过可复用的规则知识库，将重复的执行规则和验收标准转化为运行时知识，增强了智能体行为的规范性和一致性。
动态资源平衡：引入时间感知机制，让模型根据剩余预算动态调整探索、实现和验证的投入，有效避免超时并优化资源利用。
实证效果显著：在 Terminal-Bench 2.0 上，结合 LemonHarness 框架的 GPT-5.3 和 GPT-5.5 模型均取得了高于 84% 的准确率，证明了统一运行时边界、可调用的规则知识和时间感知执行对提升长周期智能体稳定性的有效性。

意义与影响

LemonHarness 的提出标志着 LLM 智能体工程化落地的重要一步。在长周期、多步骤的任务场景中，智能体的“黑盒”状态累积一直是阻碍其可靠性的核心瓶颈。LemonHarness 通过工程化的手段，将原本分散在文件系统中的状态变更显式化、结构化，并纳入模型的决策闭环中。

这一框架的意义在于：

提升可调试性与可观测性：通过结构化反馈，开发者可以更清晰地理解智能体在长任务中的状态演变路径。
增强鲁棒性：显式的边界约束和规则知识库减少了因环境噪声或操作散乱导致的错误，提高了智能体在复杂环境下的成功率。
优化资源效率：时间感知机制使得智能体能够像人类专家一样，根据剩余时间灵活调整策略，避免了无效的计算浪费。

随着智能体应用从简单的问答向复杂的自动化工作流演进，类似 LemonHarness 这样强调状态管理、边界控制和运行时优化的框架，将成为构建可靠、高效智能体系统的基础设施。

查看原文 →arxiv.org