TensorBench:基于编译器张量框架的代码智能体评测基准
原标题:TensorBench: Benchmarking Coding Agents on a Compiler-Based Tensor Framework
速览
研究团队推出TensorBench,这是一个针对开源编译器张量框架的评测基准,包含199项功能添加和重构任务。该基准通过应用智能体生成的补丁并运行完整测试套件来自动评估结果,解决了传统评测中测试覆盖率不足和人工审查难以扩展的问题。实验显示,最强智能体的通过率仅为64.8%,不同模型在任务子集上的表现差异显著。
AI 深度解读
AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org
