CursorBench 3.1发布 揭示AI编码代理真实工程能力
速览
CursorBench 3.1由Cursor公司推出,是其内部第一方更难的长期代理编码基准,任务来自真实Cursor会话,通过Cursor Blame工具提取。测试覆盖代码库理解、查找Bug、规划和代码审查等多维度,与SWE-Bench等公开基准不同,避免训练数据污染,更贴近开发者实际开发场景。领先模型Composer 2.5以63.2%得分位居首位,Claude Opus 4.8和GPT-5.5紧随其后。这一基准为开发者提供了真实反映AI编码代理实用性的评测标准,有助于选择更优模型并推动AI软件工程工具的迭代升级。
AI 深度解读
背景
CursorBench 3.1 是针对 AI 代理(agents)的基准测试数据集,专门评估模型在真实 Cursor 会话中处理模糊、多文件任务的表现。数据集来源于实际 Cursor 用户会话的模糊多文件任务,通过引入更注重代码库理解、bug 查找、规划和代码审查等维度的测试问题来提升评估标准。
核心内容
CursorBench 3.1
We evaluate agents on ambiguous, multi-file tasks from real Cursor sessions. Higher scores are better.
More about CursorBench Changelog
CursorBench 3.1
- Introduced problems focused on codebase understanding, bugfinding, planning, and code review.
- Improved grading criteria for some edit tasks.
CursorBench 3.0
- Initial set of tasks focused on edit, refactor, and bugfix problems.
Avg cost / task is computed by applying each model's published per-million-token pricing (input, cache read, cache write, and output) to the tokens it used on each CursorBench 3.1 task, then averaging across tasks. Results are subject to variance; small differences in scores may not be statistically meaningful.
关键要点
- CursorBench 3.1 针对真实 Cursor 会话中的模糊、多文件任务进行代理评估,目标是准确衡量 AI 代理在实际开发场景下的能力。
- 相比 CursorBench 3.0,3.1 新增了针对代码库理解、bug 查找、规划和代码审查等维度的任务,显著提升了测试问题的全面性和难度。
- 对部分编辑任务的评分标准进行了优化,以提高评估结果的可靠性。
- 3.0 版本的初始任务主要集中在编辑、重构和修复 bug 问题。
- 平均每任务成本通过应用各模型的每百万 token 定价(输入、缓存读取、缓存写入和输出)计算得出,结果受方差影响,极小差异不一定具有统计学意义。
意义与影响
CursorBench 3.1 作为 Cursor 生态的重要工具,为 AI 代理在真实多文件协作场景下的能力提供了标准化且可比较的评估框架。它通过引入更复杂的任务和优化评分标准,帮助开发者更精准地理解当前前沿模型在实际代码库维护中的局限性与潜力,从而推动整个 AI 编码代理技术领域的迭代与进步。
