ITBench-AA:前沿模型在首个企业IT代理任务基准测试中得分低于50%——由Artificial Analysis与IBM联合发布
速览
IBM与Artificial Analysis联合发布了ITBench-AA,这是首个针对企业IT代理任务的基准测试。测试结果表明,即使是当前最先进的AI模型,在该领域的表现也低于50%的及格线。这一发现揭示了当前大模型在复杂企业IT运维场景中的能力局限,为未来AI代理技术的改进指明了方向。
AI 深度解读
ITBench-AA:前沿模型在首个企业级 IT 智能体基准测试中得分不足 50%
来源:Artificial Analysis 与 IBM Software Innovation Lab 发布日期:2026年5月27日
Artificial Analysis 与 IBM Software Innovation Lab 联合发布了 ITBench-AA,这是评估模型在企业 IT 智能体任务上表现的一系列基准测试中的首个基准。该系列测试从站点可靠性工程(SRE)任务起步,结果显示,目前最前沿的大语言模型在该领域的得分均低于 50%。
背景
企业级 IT 运维环境复杂且关键,传统的自动化脚本难以应对动态变化的故障场景。随着人工智能技术的发展,利用 AI 智能体(Agents)辅助甚至主导 IT 运维(如故障诊断、根因分析)成为行业趋势。然而,缺乏标准化的评估体系来衡量模型在这一特定领域的实际能力。
为此,IBM 利用其在企业 IT 运营方面的深厚专业知识开发了底层的 ITBench 数据集。过去 6 个月中,Artificial Analysis 与 IBM 紧密合作,将该数据集转化为适用于前沿 AI 模型评估的实现版本。ITBench-AA 系列测试首先聚焦于站点可靠性工程(SRE),未来还将扩展至财务运营(FinOps)和首席信息安全官(CISO)相关任务。
核心内容
ITBench-AA 的 SRE 任务旨在评估模型在 Kubernetes 故障响应中的表现。模型和智能体必须通过读取日志、追踪依赖关系,并在复杂的基础设施中识别出根因实体,从而对“活”的系统进行诊断。
测试方法与数据集结构
- 任务规模:共包含 59 个 SRE 任务,其中 40 个为公开任务,19 个为全新保留的测试任务。
- 任务内容:每个任务提供一个 Kubernetes 故障快照,包含警报、事件、追踪数据、指标、日志以及应用拓扑结构。模型的目标是识别出导致故障的最小独立根因 Kubernetes 实体集合。
- 故障类型:涵盖典型的 SRE 故障模式,包括基础设施、服务、应用层面的故障,以及混沌工程注入的故障(如资源配额耗尽、部署失败、连接池耗尽、网络分区等)。
- 智能体框架:所有模型均在开源参考框架 Stirrup 中运行。智能体拥有沙盒文件系统的 Shell 访问权限,可查阅相关日志和快照。每个任务限制 100 次交互轮次(turns),每个任务重复运行 3 次。
- 评分机制:采用“全召回下的平均精确率”(average precision at full recall)。
- 如果模型遗漏了任何真实根因,该次重复得分为 0.0。
- 如果模型识别出了所有真实根因,得分等于其精确率(即提交实体中真正为根因的比例:真阳性 / (真阳性 + 假阳性))。
- 最终headline得分是 59 个任务 × 3 次重复的平均值。
- 公平性保证:所有评估模型使用相同的 Stirrup 框架,确保横向比较的公平性。
主要发现与模型表现
1. 前沿模型得分普遍偏低 所有测试的前沿模型得分均低于 50%,使得 ITBench-AA SRE 成为 Artificial Analysis 套件中饱和度最低的智能体基准测试之一(相比之下,前沿模型在 Terminal-Bench 上的得分要高得多)。
- Claude Opus 4.7 (Adaptive Reasoning, Max Effort) 以 47% 的得分领先。
- GPT-5.5 (xhigh) 紧随其后,得分为 46%。
- Qwen3.7 Max 得分为 42%。
2. 交互轮次与准确率无正相关 模型完成任务所需的交互轮次差异接近 3 倍,且更长的交互轨迹并未转化为更高的准确率。
- GPT-5.5 (xhigh) 平均每个任务 31 轮,得分 46%。
- Gemini 3.1 Pro Preview 平均每个任务 83 轮,得分仅为 30%。
- 原因分析:过度调查的模型倾向于将上游故障注入机制或共现症状误判为根因,从而产生假阳性(False Positives),导致得分降低。
3. 开源权重模型表现优异 在开源权重模型中,GLM-5.1 (Reasoning) 以 40% 的得分领先,与 Gemini 3.5 Flash (high) 基本持平。
- DeepSeek V4 Pro (Reasoning, Max Effort) 得分为 38%。
- Gemma 4 31B (Reasoning) 得分为 37%。
- Gemini 3.1 Pro Preview 得分为 30%。
案例解析
在一个公开的 SRE 任务中,智能体观察到前端路径出现面向用户的故障。通过 Shell 命令检查离线快照:
- 查看警报确定故障时间窗口。
- 通过追踪和日志将故障范围缩小至前端流量。
- 拓扑结构锁定受影响的服务。
- Kubernetes 清单文件揭示了一个阻止前端流量的网络策略。
最终,智能体成功识别出根因实体:
otel-demo/NetworkPolicy/frontend-block-all-ports。
成本效益分析
开源权重模型在 ITBench-AA SRE 中展现了极高的成本效益(Cost Frontier):
- Gemma 4 31B (Reasoning):得分 37%,每任务成本 $0.14。相比之下,Gemini 3.1 Pro Preview 得分 30%,每任务成本 $2.23。Gemma 4 31B 在得分和成本上均优于 Gemini 3.1 Pro Preview。
- GLM-5.1 (Reasoning):得分 40%,每任务成本 $1.23。在得分上匹配 Gemini 3.5 Flash (high, $1.70/任务),但成本更低。
- Claude Opus 4.7:虽然以 47% 的得分领先,但成本最高,为每任务 $5.38。
关键要点
- 前沿模型瓶颈:目前最先进的大模型在企业级 SRE 智能体任务上的表现仍不成熟,最高得分未过半(47%),表明该领域仍存在巨大的技术提升空间。
- 少即是多:更多的交互轮次并不等于更好的诊断结果。模型若过度探索,容易引入上游机制或并发症状作为“假阳性”,反而因评分规则(全召回下的精确率)而扣分。简洁、精准的定位比冗长的推理过程更有效。
- 开源模型的高性价比:以 Gemma 4 31B 和 GLM-5.1 为代表的开源权重模型,在得分上逼近或持平于部分闭源旗舰模型,但成本仅为后者的几分之一甚至十分之一,显示出极高的商业应用潜力。
- 严格的评分标准:ITBench-AA 采用“全召回”机制,即漏掉任何一个根因即得零分,这极大地提高了测试的严苛程度,真实反映了企业运维对准确性的极致要求。
- 标准化评估框架:通过统一的 Stirrup 智能体框架,消除了环境差异带来的干扰,确保了不同模型间比较的公平性和可信度。
意义与影响
ITBench-AA 的发布标志着 AI 在企业 IT 运维领域的应用评估进入了一个新阶段。
- 揭示技术差距:结果显示,尽管大模型在通用推理和代码生成上表现优异,但在处理复杂、动态且容错率极低的企业级基础设施故障时,仍存在显著的能力缺口。这为 AI 基础设施(AI Infra)的研究指明了方向。
- 推动智能体优化:测试结果强调了“精确性”优于“探索性
