大模型告别做题家时代:竞争转向Harness Engineering
速览
随着Anthropic等头部玩家推出Claude Code等产品,大模型行业正从追求Benchmark高分的“做题家”时代,转向关注系统级能力的“Harness Engineering”阶段。这一转变强调通过工具调用、记忆管理和安全防护等工程手段,让模型在真实世界中稳定、高效地完成任务。
AI 深度解读
大模型告别“做题家”时代:从模型竞赛到系统博弈
背景
过去两年,大模型领域的竞争逻辑高度单一化,类似于高考模式。Benchmark(基准测试)分数成为衡量模型能力的唯一标尺,行业陷入了一场以“跑分”为核心的军备竞赛。DeepSeek 等公司凭借极致效率和开源策略,在提升大语言模型智能上限方面取得了显著成就,甚至一度碾压全场。
然而,随着 OpenAI 布局 Agent、Anthropic 推出 Claude Code、Google 深耕多模态,头部玩家的目光已从单纯的模型参数竞赛转向了更实际的问题:模型如何真正协助人类完成复杂工作?这一转变标志着行业进入了一个微妙的转折点。DeepSeek 面临核心研究员出走、期权价值不明以及 Agent 方向产品化尚未落地等挑战,这并非其战略失误,而是行业范式转移的必然结果。当“高分”不再是唯一通行证,大模型必须从“做题家”进化为能独立解决复杂问题的“职场人”。
核心内容
文章指出,大模型行业正经历从“模型能力比拼”向“系统驾驭能力比拼”的深刻转型。这一转型的核心概念被称为 Harness Engineering(驾驭工程)。
1. 从“做题家”到“打工人”的能力重构 以 Anthropic 的 Claude Code 为例,其核心竞争力不再仅仅是底层的推理能力,而是围绕模型构建的一整套工程化能力。Claude Code 通过以下机制解决了真实场景中的痛点:
- 成本控制:通过将 System Prompt 拆分为“不变部分”和“可变部分”,利用缓存技术复用不变内容,显著降低 API 调用成本。
- 安全与交互机制:设计了四层递进的安全机制(配置白名单、工具自检、小模型风险评估、用户弹窗),确保模型在不确定时能自主判断或谨慎求助,而非盲目执行。
- 记忆管理:面对长对话导致的“遗忘”问题,不依赖沉重的向量数据库,而是将对话历史压缩为结构化的本地摘要(目标、决策、代码变更),实现轻量且高效的状态保持。
这些能力表明,光有智商极高的模型(如智商 160 的天才)是不够的,必须配备相应的工具、规范和环境,模型才能在真实世界中稳定、高效地工作。
2. Harness Engineering 的定义与起源 “Harness”原意为马具,此处比喻为让模型力量按预期方向释放的缰绳、马鞍和方向盘。该概念的兴起有两个关键节点:
- 2026年2月5日:Terraform 作者 Mitchell Hashimoto 提出核心原则:当 Agent 犯错时,应设计系统方案确保其不再犯同类错误。这强调了竞争力在于“驯服模型的系统”,而非模型本身。
- 2026年1月5日:Google DeepMind 工程师 Philipp Schmid 提出“The Harness is the Dataset”(驾驭系统本身就是数据集)。这意味着系统在运行中记录的完整轨迹(信息输入、判断逻辑、错误及修复过程)是训练下一代模型的高价值燃料,从而启动“系统越好->数据越好->模型越好->系统更好”的数据飞轮。
3. 行业演进三阶段
- 2022-2024年(Prompt Engineering):重点在于如何提问,通过提示词激发模型能力。
- 2025年(Context Engineering):重点在于提供合适的上下文,确保信息在对的时间被模型获取。
- 2026年(Harness Engineering):重点在于搭建整套系统,涵盖工具调用、记忆管理、成本控制和安全防护,竞争颗粒度从单点技术扩展至全系统架构。
4. 市场格局的变化 MiniMax 创始人闫俊杰指出,模型能力正在趋同,中国公司可用极低成本达到美国模型 95% 的性能,5% 的差距已非决定性变量。因此,竞争焦点转向了编程领域的“同事级”协作、办公领域的效率复刻以及多模态内容的直出交付。
对于 DeepSeek 而言,即将发布的 V4 模型虽仍将是开源最强,但难以形成碾压优势,因为不同场景对“强”的定义已多元化。相比之下,腾讯混元等新模型不再执着于跑分大战,而是更注重适配自身生态系统的实际工作能力。
关键要点
- 范式转移:大模型行业已从“Benchmark 分数竞赛”转向“真实任务完成能力竞赛”。模型不再仅仅是智力测试的参与者,而是需要具备协作、工具使用和自我修正能力的职场伙伴。
- Harness Engineering 的核心价值:
- 系统性优势:竞争力从模型内部参数转移到外部的驾驭系统(工具、记忆、安全、成本优化)。
- 数据飞轮效应:运行中的 Harness 系统能收集高质量反馈数据,反哺模型训练,形成闭环优势。
- 错误修正机制:通过系统设计确保 Agent 犯过的错不再重犯,提升系统的鲁棒性。
- Claude Code 的工程启示:
- 通过 Prompt 缓存优化成本。
- 通过多层级安全机制平衡效率与风险。
- 通过结构化摘要解决长上下文记忆问题。
- 行业共识与趋势:
- 模型能力趋同,差异化缩小,系统整合能力成为胜负手。
- 竞争维度升级:从 Prompt -> Context -> Harness,颗粒度逐渐变大。
- 头部厂商(如 OpenAI, Anthropic, Google)均聚焦于 Agent 和实际工作流整合。
- 对 DeepSeek 的启示:
- 单纯依靠模型智能上限已不足以维持领先,需补齐 Agent 产品化、团队协作工具等短板。
- 需适应“非碾压级”竞争环境,注重在复杂系统中的定位与适应能力。
意义与影响
1. 重新定义 AI 产品的核心竞争力 行业评价标准从单一的“智商”(模型参数、推理能力)转向“情商”与“技能”(系统稳定性、成本控制、安全性、协作能力)。这意味着 AI 产品的护城河将从算法层下沉至工程层和应用层。开发者不再只需关注如何训练更好的模型,更需关注如何构建能让模型稳定落地的基础设施。
2. 加速 AI 从“玩具”到“工具”的进化 Harness Engineering 的兴起标志着 AI 应用进入成熟期。通过解决记忆、成本和安全等实际工程问题,AI 从实验室里的“学霸”变成了职场中可靠的“同事”。这将极大降低企业使用 AI 的门槛和风险,推动 AI 在编程、办公、内容创作等垂直领域的深度渗透。
3. 改变技术人才的需求结构 随着竞争焦点的系统化,市场对人才的需求将从单纯的算法研究员扩展到具备系统工程思维、产品化能力和领域知识的复合型人才。能够设计高效 Harness、理解业务场景并优化人机协作流程的工程师和架构师将成为稀缺资源。
4. 重塑市场竞争格局 对于像 DeepSeek 这样以模型技术见长的公司,若不能及时从“象牙塔”走向“真实世界”,构建完整的生态系统,将面临被拥有更强工程整合能力和场景适配能力的竞争对手超越的风险。反之,那些能快速将模型能力封装为稳定、安全、低成本系统的公司,将在新一轮竞争中占据主导地位。
5. 推动数据飞轮的良性循环 Harness 作为数据集的理念,揭示了数据价值的新维度。真实世界中的交互数据将成为训练下一代更智能、更可靠模型的关键燃料。这将促使企业更加重视用户交互数据的积累与利用,从而形成“系统-数据-模型”相互促进的正向循环。
