AI 资讯雷峰网·3 小时前

小米HarnessX让Agent Harness实现自我进化

原标题：Claude 和 Manus 还要人工搭框架？小米直接让 Agent 自我进化

速览

小米Darwin Agent Team发布的HarnessX论文解决了传统Agent开发中Harness人工搭建、静态且易纠缠的问题。通过积木式拼装、AEGIS进化引擎、变体隔离机制及Harness-Model协同进化，HarnessX实现了系统自进化，直接从执行轨迹中学习，无需人工重搭脚手架。实验在GAIA、ALFWorld等基准上平均带来14.5%性能提升，小模型搭配时提升更显著，标志着AI Agent从模型驱动转向Harness-Model双轮驱动的底层架构革新，为企业级长周期复杂任务提供了可自修复的未来底座。

AI 深度解读

HarnessX：小米团队自进化智能体框架，让AI不再依赖人工搭“外壳”

来源：雷峰网
作者：高允毅
编辑：马晓宁
时间：2026年6月

背景

在AI圈，智能体（Agent）被普遍定义为 Model + Harness 的组合。其中，Model 是底层大模型，Harness 是包裹在外的“外壳”，负责提示词模板、工具调用规则、记忆管理、控制流以及安全护栏等功能。过去半年，Claude Code 和 Manus 等全自动智能体实现“AI 写 AI”快速迭代，但它们的 Harness 仍需人工一次性搭建。

每当模型升级，工程师必须手动重搭脚手架。运行中产生的千万级 token 执行轨迹几乎全部被丢弃，未沉淀为下一轮改进的信号。Anthropic 发布新版 Claude 后，工程师需删除 Claude Code 中的冗余规划步骤；Manus 6 个月内重写了 5 次架构，每一轮均手动砍掉上一轮硬编码逻辑。

小米团队直面这一痛点，于 2026 年 6 月 12 日发布论文《HarnessX》（arxiv.org/abs/2606.14249），提出“系统自进化”方案，试图终结 Harness 人工调优时代。

核心内容

HarnessX 将 Harness 升格为与模型地位平等的“一等公民”，具备可组合、自适应、可进化三大特质。

积木式拼装（可组合）

过去 Agent 开发存在严重架构纠缠：提示词、工具封装、重试策略和记忆管理写在同一代码中，微小改动易引发连锁崩盘。HarnessX 将底层模型与 Harness 完全解耦，同一“干活方式”可套用于不同模型，同一模型可切换不同“干活方式”。

团队将 Harness 拆解为 9 个独立维度：模型选择、上下文组装、记忆管理、工具生态、执行环境、评估与奖励、控制与安全、可观测性、训练桥接。每个维度由单个 Typed Processor（类型化处理器）负责，这些处理器可挂载在 8 个时间点（任务开始前、模型调用前、工具用完后等），通过统一接口插拔。

设计实现严格合并与冲突检测，拼装时逻辑错误会在代码阶段报错，而非运行时才暴露。

AEGIS 进化引擎（自适应）

在可组合基础上，HarnessX 构建操作镜像理论与 AEGIS 进化引擎，形成系统自进化核心底座。

操作镜像将 Harness 自进化映射到强化学习框架：Harness 配置对应“状态”，代码级编辑对应“动作”，执行轨迹 + 验证得分对应“反馈”，确定性验收规则对应“更新”。该映射精准规避传统自进化三大死穴——刷分作弊不干活、灾难性遗忘、一改即崩，以及只改表面提示词不触底层代码。

AEGIS 落地为四阶段进化流水线：

Digester（消化器）：将完整执行过程压缩为精简摘要，只提炼“哪个步骤卡在什么问题”。
Planner（规划器）：基于摘要判断改动。若连续多轮仅改提示词不碰工具层，系统标记“探索不足”。
Evolver（进化器）：实际生成代码级改动（如写新处理器、重构工具注册表）。生成后先过“烟雾测试”（语法和类型检查）。
Critic + Gate（评判+闸门）：Critic 监督 AI 是否作弊；Gate 拥有否决权，确保新版本对旧任务不降级，否则打回重造。

平行分身（自适应）

单条进化流水线在异构基准（如 GAIA）上存在短板：优化 A 类任务易拖累 B 类任务，导致整体原地踏步或退化。HarnessX 引入“变体隔离”机制，维护多个 Harness 版本。任务自动流向表现最好的版本，若改动仅对某类任务有效，则给予独立进化权，不干扰其他变体。

测试显示：GAIA+GPT-5.4 基准下，单 Harness 15 轮后性能从 73.8% 退化至 49.5%；启用变体隔离后，准确率升至 87.4%，全程无退化，节省 25% token。

双向升级（可进化）

HarnessX 实现模型与 Harness 协同进化，使用同一“错题本”——Replay Buffer。每次执行过程被完整记录，同时送入底层模型和 Harness，实现一鱼两吃。

跨 Harness 按任务分组对比，只看最终奖励高低，由模型内化最佳执行策略。模型侧采用 Cross-harness GRPO 算法（近期 DeepSeek-R1 核心技术），将 Harness 自进化产生的执行数据直接用于 GRPO 训练，无需额外采集数据。

协同进化带来平均额外 +4.7% 性能增益。

关键要点

HarnessX 将 Harness 从辅助工具升格为与模型平等的“一等公民”，拆解为 9 个独立维度（模型选择、上下文组装、记忆管理、工具生态、执行环境、评估与奖励、控制与安全、可观测性、训练桥接），每个维度由 Typed Processor 负责并可插拔。
可组合设计实现模块解耦、合并冲突检测，改动一个零件不会影响其他部分。
自适应特性通过 AEGIS 四阶段进化流水线（Digester、Planner、Evolver、Critic + Gate）实现系统自进化，映射强化学习框架规避三大死穴。
平行分身机制在异构任务中实现变体隔离，避免单变体退化，GAIA 测试中最终准确率升至 87.4%。
可进化特性通过 Replay Buffer 实现模型与 Harness 双向协同进化，使用 Cross-harness GRPO 算法，平均额外 +4.7% 增益。
在 GAIA、SWE-bench Verified 等五大基准上，15 轮迭代中 14 组平均性能提升 14.5%；小模型依赖红利更大，Qwen 3.5-9B 在 ALFWorld 任务中从 53.0% 提升至 97.0%（+44%）。
进化成本以 Claude 4.6 Sonnet 为例，单次 15 轮约 1519 美元；代码尚未完全开源（GitHub 112 星），相关论文已在 Hugging Face 讨论区讨论。

意义与影响

HarnessX 证明无需大幅调整底层模型参数，仅通过 Harness 自进化即可实现 14.5% 平均性能提升，显著降低企业级 AI 落地复杂长周期任务的成本。开源小模型（如 Qwen 3.5-9B）可借助进化 Harness 追平大模型差距，突破“模型大小”依赖瓶颈。

这一方向正悄然成型，技术圈反馈一致认可：从卷参数、卷上下文长度，到 AI 外壳也能自动编译。HarnessX 的解耦设计显著降低代码复用成本，未来 Agent 将从“一次性手工作坊”走向“可持续进化的工厂”。

当前仍存局限：依赖顶级模型（如 Claude 4.6 Sonnet）的进化成本高；未充分验证机器人控制等连续动作任务、跨团队协调成本，以及生产环境数据乱序场景下的泛化能力；自进化功能需更多严格 held-out 测试确认。但其组合能力已具备落地潜力，代码发布后将进一步验证协同进化的数据效率优势。

查看原文 →leiphone.com