技术博客Hugging Face Blog·7 天前

ITBench-AA：前沿模型在首个企业IT代理任务基准测试中得分低于50%——由Artificial Analysis与IBM联合发布

原标题：ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM

速览

IBM与Artificial Analysis联合发布了ITBench-AA，这是首个针对企业IT代理任务的基准测试。测试结果表明，即使是当前最先进的AI模型，在该领域的表现也低于50%的及格线。这一发现揭示了当前大模型在复杂企业IT运维场景中的能力局限，为未来AI代理技术的改进指明了方向。

AI 深度解读

ITBench-AA：前沿模型在首个企业级 IT 智能体基准测试中得分不足 50%

来源：Artificial Analysis 与 IBM Software Innovation Lab 发布日期：2026年5月27日

Artificial Analysis 与 IBM Software Innovation Lab 联合发布了 ITBench-AA，这是评估模型在企业 IT 智能体任务上表现的一系列基准测试中的首个基准。该系列测试从站点可靠性工程（SRE）任务起步，结果显示，目前最前沿的大语言模型在该领域的得分均低于 50%。

背景

企业级 IT 运维环境复杂且关键，传统的自动化脚本难以应对动态变化的故障场景。随着人工智能技术的发展，利用 AI 智能体（Agents）辅助甚至主导 IT 运维（如故障诊断、根因分析）成为行业趋势。然而，缺乏标准化的评估体系来衡量模型在这一特定领域的实际能力。

为此，IBM 利用其在企业 IT 运营方面的深厚专业知识开发了底层的 ITBench 数据集。过去 6 个月中，Artificial Analysis 与 IBM 紧密合作，将该数据集转化为适用于前沿 AI 模型评估的实现版本。ITBench-AA 系列测试首先聚焦于站点可靠性工程（SRE），未来还将扩展至财务运营（FinOps）和首席信息安全官（CISO）相关任务。

核心内容

ITBench-AA 的 SRE 任务旨在评估模型在 Kubernetes 故障响应中的表现。模型和智能体必须通过读取日志、追踪依赖关系，并在复杂的基础设施中识别出根因实体，从而对“活”的系统进行诊断。

测试方法与数据集结构

任务规模：共包含 59 个 SRE 任务，其中 40 个为公开任务，19 个为全新保留的测试任务。
任务内容：每个任务提供一个 Kubernetes 故障快照，包含警报、事件、追踪数据、指标、日志以及应用拓扑结构。模型的目标是识别出导致故障的最小独立根因 Kubernetes 实体集合。
故障类型：涵盖典型的 SRE 故障模式，包括基础设施、服务、应用层面的故障，以及混沌工程注入的故障（如资源配额耗尽、部署失败、连接池耗尽、网络分区等）。
智能体框架：所有模型均在开源参考框架 Stirrup 中运行。智能体拥有沙盒文件系统的 Shell 访问权限，可查阅相关日志和快照。每个任务限制 100 次交互轮次（turns），每个任务重复运行 3 次。
评分机制：采用“全召回下的平均精确率”（average precision at full recall）。
- 如果模型遗漏了任何真实根因，该次重复得分为 0.0。
- 如果模型识别出了所有真实根因，得分等于其精确率（即提交实体中真正为根因的比例：真阳性 / (真阳性 + 假阳性)）。
- 最终headline得分是 59 个任务 × 3 次重复的平均值。
公平性保证：所有评估模型使用相同的 Stirrup 框架，确保横向比较的公平性。

主要发现与模型表现

1. 前沿模型得分普遍偏低 所有测试的前沿模型得分均低于 50%，使得 ITBench-AA SRE 成为 Artificial Analysis 套件中饱和度最低的智能体基准测试之一（相比之下，前沿模型在 Terminal-Bench 上的得分要高得多）。

Claude Opus 4.7 (Adaptive Reasoning, Max Effort) 以 47% 的得分领先。
GPT-5.5 (xhigh) 紧随其后，得分为 46%。
Qwen3.7 Max 得分为 42%。

2. 交互轮次与准确率无正相关 模型完成任务所需的交互轮次差异接近 3 倍，且更长的交互轨迹并未转化为更高的准确率。

GPT-5.5 (xhigh) 平均每个任务 31 轮，得分 46%。
Gemini 3.1 Pro Preview 平均每个任务 83 轮，得分仅为 30%。
原因分析：过度调查的模型倾向于将上游故障注入机制或共现症状误判为根因，从而产生假阳性（False Positives），导致得分降低。

3. 开源权重模型表现优异 在开源权重模型中，GLM-5.1 (Reasoning) 以 40% 的得分领先，与 Gemini 3.5 Flash (high) 基本持平。

DeepSeek V4 Pro (Reasoning, Max Effort) 得分为 38%。
Gemma 4 31B (Reasoning) 得分为 37%。
Gemini 3.1 Pro Preview 得分为 30%。

案例解析

在一个公开的 SRE 任务中，智能体观察到前端路径出现面向用户的故障。通过 Shell 命令检查离线快照：

查看警报确定故障时间窗口。
通过追踪和日志将故障范围缩小至前端流量。
拓扑结构锁定受影响的服务。
Kubernetes 清单文件揭示了一个阻止前端流量的网络策略。最终，智能体成功识别出根因实体：otel-demo/NetworkPolicy/frontend-block-all-ports。

成本效益分析

开源权重模型在 ITBench-AA SRE 中展现了极高的成本效益（Cost Frontier）：

Gemma 4 31B (Reasoning)：得分 37%，每任务成本 $0.14。相比之下，Gemini 3.1 Pro Preview 得分 30%，每任务成本 $2.23。Gemma 4 31B 在得分和成本上均优于 Gemini 3.1 Pro Preview。
GLM-5.1 (Reasoning)：得分 40%，每任务成本 $1.23。在得分上匹配 Gemini 3.5 Flash (high, $1.70/任务)，但成本更低。
Claude Opus 4.7：虽然以 47% 的得分领先，但成本最高，为每任务 $5.38。

关键要点

前沿模型瓶颈：目前最先进的大模型在企业级 SRE 智能体任务上的表现仍不成熟，最高得分未过半（47%），表明该领域仍存在巨大的技术提升空间。
少即是多：更多的交互轮次并不等于更好的诊断结果。模型若过度探索，容易引入上游机制或并发症状作为“假阳性”，反而因评分规则（全召回下的精确率）而扣分。简洁、精准的定位比冗长的推理过程更有效。
开源模型的高性价比：以 Gemma 4 31B 和 GLM-5.1 为代表的开源权重模型，在得分上逼近或持平于部分闭源旗舰模型，但成本仅为后者的几分之一甚至十分之一，显示出极高的商业应用潜力。
严格的评分标准：ITBench-AA 采用“全召回”机制，即漏掉任何一个根因即得零分，这极大地提高了测试的严苛程度，真实反映了企业运维对准确性的极致要求。
标准化评估框架：通过统一的 Stirrup 智能体框架，消除了环境差异带来的干扰，确保了不同模型间比较的公平性和可信度。

意义与影响

ITBench-AA 的发布标志着 AI 在企业 IT 运维领域的应用评估进入了一个新阶段。

揭示技术差距：结果显示，尽管大模型在通用推理和代码生成上表现优异，但在处理复杂、动态且容错率极低的企业级基础设施故障时，仍存在显著的能力缺口。这为 AI 基础设施（AI Infra）的研究指明了方向。
推动智能体优化：测试结果强调了“精确性”优于“探索性

查看原文 →huggingface.co