技术博客arXiv cs.AI·7 小时前

ORAgentBench：大模型智能体能否端到端解决复杂运筹任务

原标题：ORAgentBench: Can LLM Agents Solve Challenging Operations Research Tasks End to End?

速览

研究人员推出ORAgentBench，这是一个基于执行环境的基准测试，旨在评估自主智能体在复杂端到端运筹任务中的表现。该基准包含107个人工审核的任务，涵盖多种运营场景，要求智能体编写并运行解决方案代码。实验表明，当前前沿智能体在可靠性和任务通过率上仍远未达到实际运筹实践的要求。

随着大语言模型（LLM）在可执行环境中作为自主智能体（Autonomous Agents）部署，其处理多步骤任务的能力日益受到关注。然而，LLM 在现实世界的运筹学（Operations Research, OR）工作中的应用潜力仍是一个未解之谜。

现有的运筹学评估体系存在明显的局限性：

为了填补这一空白，研究者提出了 ORAgentBench，这是一个基于执行环境的基准测试，旨在评估自主智能体在具有挑战性的端到端运筹学任务中的表现。

ORAgentBench 的核心设计理念是“执行 grounded”（Execution-grounded），即智能体必须在隔离的环境中实际编写并运行代码来解决问题，而非仅仅生成理论上的数学公式。

该基准测试包含 107 个经过人工审核的任务，覆盖了多样化的运营场景。每个任务都被封装在一个隔离的执行环境中，包含以下要素：

智能体需要编写解决方案代码并运行，其提交结果由隐藏的验证器（Hidden Validators）进行严格评估，主要考察三个维度：

研究团队对 14 种前沿智能体-模型配置 进行了实验，结果揭示了当前技术的显著不足：

通过对错误案例的深入分析，研究者发现智能体的失败主要源于战略性弱点，而非单纯的代码语法错误：

此外，研究还发现，虽然引入特定的运筹学程序技能（OR-specific procedural skills）可以提高困难任务的可行性，但并不能可靠地提升解决方案的质量或整体通过率。

ORAgentBench 的发布标志着对大语言模型在专业领域应用评估的一次重要升级。它揭示了当前 LLM 智能体在解决复杂、高约束、多步骤的真实世界问题时的巨大差距。

这一研究对业界具有深远影响：

重新定义评估标准：呼吁从“生成正确代码”转向“生成可靠的高质量决策”，强调解决方案的鲁棒性和实际业务价值。
指明改进方向：未来的研究不应仅关注提升模型的代码生成能力，更需加强智能体对复杂业务逻辑的理解、约束满足能力以及迭代优化策略。
警示落地风险：结果表明，目前直接将 LLM 智能体部署到关键的运筹学决策场景中仍存在高风险，需要更成熟的中间件或混合人类-智能体协作机制来弥补其战略性弱点。

总之，ORAgentBench 证明，要让 LLM 智能体真正胜任运筹学工作，必须超越“看似合理的优化代码”，迈向“可依赖的高质量运营决策”。