← 返回信息流
技术博客arXiv cs.AI·1 小时前

AI代理能泛化到真实世界吗?静态训练工具使用存在脆弱性

原标题:Can Agents Generalize to the Open World? Unveiling the Fragility of Static Training in Tool Use

速览

论文arXiv:2607.01084v1提出OpenAgent问题设定,针对LLM代理在开放世界工具使用中的泛化挑战,定义查询、动作、观察和领域四个维度的分布漂移。构建四层环境扰动沙箱(感知、交互、推理、内化),系统诊断静态训练代理(SFT和RL)的脆弱性。实验发现训练后性能均受不同程度影响,提出扰动增强微调策略,旨在为真实环境下的代理鲁棒性提供基础。研究强调静态训练局限,助力AI代理向实用场景扩展。

AI 深度解读

背景

大型语言模型(LLM)代理在静态基准测试中表现出色,但在真实世界部署中面临显著挑战。真实场景的动态性体现在用户查询、工具集以及交互动态的不断变化上。这些因素与静态训练数据分布存在差异,导致代理在实际应用中的泛化能力不足,表现出现明显退化。当前研究和基准多基于“静态世界假设”,即训练与推理阶段的工具、模式和交互逻辑保持一致,从而掩盖了这一根本缺陷。

核心内容

本文正式提出了OpenAgent(Open-World Tool-Use Agent)这一问题设定,核心刻画了开放世界工具使用代理在分布性偏移(distributional shifts)下的泛化挑战。该设定涉及用户查询(query)、动作(action)、观察(observation)以及领域(domain)维度上的系统性变化。

为系统诊断OpenAgent问题,研究者构建了一个受控沙盒环境(controlled sandbox environment),允许精确注入开放世界扰动(perturbations)。他们将环境偏移定义为一个四层分层结构(four-tier hierarchy):感知层(Perception)、交互层(Interaction)、推理层(Reasoning)和内部化层(Internalization)。通过这一层次化框架,研究者对代理在开放环境下的行为进行了全面实验分析。

实验结果表明,通过监督微调(SFT)和强化学习(RL)训练的代理在面对开放环境偏移时,均表现出不同程度的性能退化。其中,SFT代理在感知和交互层呈现出“盲开环系统”(blind open-loop system)的特征,表现为符号锚定脆弱、持久幻觉(persistent hallucinations);RL代理则在语义层面更稳定,能利用明确指导进行动态策略适应,但在全局依赖反转(global dependency inversion)下仍因拓扑过拟合而崩溃。同时,两类训练方式均存在边界盲区(boundary blindness),在无解状态下倾向于强制完成而非主动拒绝。

在此基础上,研究者提出Perturbation-Augmented Fine-Tuning(PAFT),这是一种基于扰动的干预策略(disturbance-based intervention strategy),专为SFT设计,用于增强代理鲁棒性。该方法通过引入扰动数据来扩展训练分布,为代理在现实环境中的实用性奠定基础。

关键要点

  • OpenAgent问题设定明确区分静态基准的局限性,聚焦开放世界中查询、动作、观察和领域上的分布性偏移。
  • 研究构建四层分层沙盒环境(感知、交互、推理、内部化),实现对开放偏移的精确、可控注入。
  • SFT代理在低层(感知与交互)易产生幻觉和符号锚定问题,表现为盲开环;RL代理在语义 grounding 上更强,但仍受全局依赖反转和拓扑过拟合影响。
  • 两类训练范式均存在边界盲区,在无解状态下优先强制完成而非拒绝。
  • PAFT作为SFT的扰动增强策略,是提升代理鲁棒性的基础干预方法,代码已开源(https://github.com/LAMDA-NeSy/OpenAgent)。

意义与影响

本文通过开放世界问题设定和四层诊断框架,首次系统性地揭示了静态训练范式(SFT与RL)在工具使用场景下的脆弱性,为未来代理的开发提供了清晰的诊断路径和改进方向。提出的PAFT策略为在现实环境中提升代理实用性和鲁棒性打开了新路径,随着代码开源和后续研究开展,这一工作有望推动更多鲁棒、安全的开放世界代理系统出现,加速其从基准测试向真实部署的转化。

查看原文 →arxiv.org