← 返回信息流
技术博客arXiv cs.CL·3 小时前

AdaPlanBench:评估大模型在动态约束下的自适应规划能力

原标题:AdaPlanBench: Evaluating Adaptive Planning in Large Language Model Agents under World and User Constraints

速览

研究提出AdaPlanBench,这是一个动态交互式基准测试,旨在评估大语言模型智能体在逐步揭示的世界和用户双重约束下进行自适应规划和重新规划的能力。该基准基于307项家庭任务构建,通过多轮交互协议,仅在智能体提出违反隐藏约束的计划时才揭示约束,要求智能体根据累积反馈迭代修订计划。实验显示,当前顶级大模型在双重约束下的自适应规划仍面临挑战,最佳模型准确率仅为67.75%,且随着约束累积性能下降,用户约束构成更大难题。

AI 深度解读

AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org