AI 资讯Hacker News·2 天前

Self-Harness：实现自我进化的智能Harness

原标题：Self-Harness: Harnesses That Improve Themselves

速览

Self-Harness代表了一种新型技术框架，其核心特性在于具备自我优化和进化的能力。这种机制允许系统在不依赖外部人工干预的情况下，自动调整参数或结构以提升性能。该技术的出现为复杂系统的自适应管理提供了新的解决方案。

AI 深度解读

背景

大型语言模型（LLM）驱动的代理（Agent）在复杂任务中的表现，不仅取决于其底层基础模型的能力，还高度依赖于“Harness”（在此语境下可理解为代理与外部环境交互的中间件、提示工程框架或执行约束机制）。由于不同模型具有独特的行为模式和能力边界，设计高效的 Harness 往往需要针对特定模型进行定制化调整。

然而，当前的 Harness 设计主要依赖人类专家的手工工程（Human-engineered）。随着现代 LLM 的多样性日益增加且迭代速度极快，这种依赖人工的模式在扩展性上存在严重瓶颈。专家难以跟上模型演进的节奏，也无法为每一个新模型或变体手动优化交互逻辑。这一痛点催生了对自动化、自适应 Harness 优化机制的需求。

核心内容

本文提出了一种名为 Self-Harness 的新范式，旨在让基于 LLM 的代理能够自我改进其操作 Harness，而无需依赖人类工程师或更强大的外部代理。

Self-Harness 被实现为一个包含三个阶段的迭代循环：

弱点挖掘（Weakness Mining）：通过分析代理的执行轨迹（Execution Traces），识别出特定于该模型的失败模式。这一步旨在发现模型在特定任务或环境下表现不佳的具体原因。
Harness 提案（Harness Proposal）：基于识别出的失败模式，生成多样化且最小化的 Harness 修改建议。这些修改旨在直接针对发现的弱点，而不是泛泛而谈。
提案验证（Proposal Validation）：对候选的编辑进行修改回归测试（Regression Testing）。只有当修改不仅解决了已知弱点，且未导致其他性能下降时，才会被接受并应用。

为了验证这一范式的有效性，研究团队在 Terminal-Bench-2.0 基准测试上进行了实例化实验。实验设置如下：

初始条件：使用一个最小化的初始 Harness。
模型选择：选取了来自不同架构家族的三个基础模型：
- MiniMax M2.5
- Qwen3.5-35B-A3B
- GLM-5

实验结果显示，Self-Harness 在所有三个模型上均一致地提升了性能。在保留测试集（Held-out pass rates）上，各模型的通过率提升如下：

MiniMax M2.5：从 40.5% 提升至 61.9%
Qwen3.5-35B-A3B：从 23.8% 提升至 38.1%
GLM-5：从 42.9% 提升至 57.1%

定性分析进一步表明，Self-Harness 并非简单地添加通用的指令（Generic Instructions），而是有效地将模型特有的弱点转化为具体、可执行的 Harness 变更。

关键要点

去人工化优化：Self-Harness 的核心突破在于摆脱了对人类专家或更强外部代理的依赖，实现了代理对自身交互逻辑的自动化迭代优化。
闭环迭代机制：通过“弱点挖掘 -> 提案生成 -> 回归验证”的三步循环，确保了优化的针对性和安全性，避免了因盲目修改导致的性能退化。
模型特异性适配：优化过程紧密绑定于特定模型的行为特征，生成的修改方案是具体的、可执行的，而非通用的提示词堆砌。
显著的效能提升：在 Terminal-Bench-2.0 上，三个不同架构的模型（MiniMax M2.5, Qwen3.5-35B-A3B, GLM-5）均获得了大幅度的性能提升，平均提升幅度超过 15-20 个百分点。
自我重塑能力：研究结果表明，LLM 代理不再仅仅是被 Harness 塑造的对象，它们开始具备参与重塑自身操作环境的能力。

意义与影响

Self-Harness 的提出标志着 LLM 代理开发范式的一个重要转变。传统上，Harness 设计被视为一个静态的、由人类主导的工程问题。然而，随着模型生态的碎片化和快速迭代，这种模式已难以为继。

Self-Harness 证明了代理系统具备“元认知”或“自我优化”的潜力。通过让代理分析自身的失败轨迹并自动调整交互策略，我们可以构建出更具鲁棒性、适应性和自主性的智能体系统。这不仅降低了部署和维护复杂 LLM 代理的人力成本，也为未来实现完全自主、能够自我进化的 AI 系统铺平了道路。它暗示了一个未来场景：AI 代理不仅能完成任务，还能不断优化完成任务的方式，从而在动态变化的环境中保持高效和准确。

查看原文 →arxiv.org

Self-Harness：实现自我进化的智能Harness

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐