技术博客arXiv cs.AI·1 小时前

AI代理能泛化到真实世界吗？静态训练工具使用存在脆弱性

原标题：Can Agents Generalize to the Open World? Unveiling the Fragility of Static Training in Tool Use

速览

论文arXiv:2607.01084v1提出OpenAgent问题设定，针对LLM代理在开放世界工具使用中的泛化挑战，定义查询、动作、观察和领域四个维度的分布漂移。构建四层环境扰动沙箱（感知、交互、推理、内化），系统诊断静态训练代理（SFT和RL）的脆弱性。实验发现训练后性能均受不同程度影响，提出扰动增强微调策略，旨在为真实环境下的代理鲁棒性提供基础。研究强调静态训练局限，助力AI代理向实用场景扩展。

AI 深度解读

背景

大型语言模型（LLM）代理在静态基准测试中表现出色，但在真实世界部署中面临显著挑战。真实场景的动态性体现在用户查询、工具集以及交互动态的不断变化上。这些因素与静态训练数据分布存在差异，导致代理在实际应用中的泛化能力不足，表现出现明显退化。当前研究和基准多基于“静态世界假设”，即训练与推理阶段的工具、模式和交互逻辑保持一致，从而掩盖了这一根本缺陷。

核心内容

本文正式提出了OpenAgent（Open-World Tool-Use Agent）这一问题设定，核心刻画了开放世界工具使用代理在分布性偏移（distributional shifts）下的泛化挑战。该设定涉及用户查询（query）、动作（action）、观察（observation）以及领域（domain）维度上的系统性变化。

为系统诊断OpenAgent问题，研究者构建了一个受控沙盒环境（controlled sandbox environment），允许精确注入开放世界扰动（perturbations）。他们将环境偏移定义为一个四层分层结构（four-tier hierarchy）：感知层（Perception）、交互层（Interaction）、推理层（Reasoning）和内部化层（Internalization）。通过这一层次化框架，研究者对代理在开放环境下的行为进行了全面实验分析。

实验结果表明，通过监督微调（SFT）和强化学习（RL）训练的代理在面对开放环境偏移时，均表现出不同程度的性能退化。其中，SFT代理在感知和交互层呈现出“盲开环系统”（blind open-loop system）的特征，表现为符号锚定脆弱、持久幻觉（persistent hallucinations）；RL代理则在语义层面更稳定，能利用明确指导进行动态策略适应，但在全局依赖反转（global dependency inversion）下仍因拓扑过拟合而崩溃。同时，两类训练方式均存在边界盲区（boundary blindness），在无解状态下倾向于强制完成而非主动拒绝。

在此基础上，研究者提出Perturbation-Augmented Fine-Tuning（PAFT），这是一种基于扰动的干预策略（disturbance-based intervention strategy），专为SFT设计，用于增强代理鲁棒性。该方法通过引入扰动数据来扩展训练分布，为代理在现实环境中的实用性奠定基础。

关键要点

OpenAgent问题设定明确区分静态基准的局限性，聚焦开放世界中查询、动作、观察和领域上的分布性偏移。
研究构建四层分层沙盒环境（感知、交互、推理、内部化），实现对开放偏移的精确、可控注入。
SFT代理在低层（感知与交互）易产生幻觉和符号锚定问题，表现为盲开环；RL代理在语义 grounding 上更强，但仍受全局依赖反转和拓扑过拟合影响。
两类训练范式均存在边界盲区，在无解状态下优先强制完成而非拒绝。
PAFT作为SFT的扰动增强策略，是提升代理鲁棒性的基础干预方法，代码已开源（https://github.com/LAMDA-NeSy/OpenAgent）。

意义与影响

本文通过开放世界问题设定和四层诊断框架，首次系统性地揭示了静态训练范式（SFT与RL）在工具使用场景下的脆弱性，为未来代理的开发提供了清晰的诊断路径和改进方向。提出的PAFT策略为在现实环境中提升代理实用性和鲁棒性打开了新路径，随着代码开源和后续研究开展，这一工作有望推动更多鲁棒、安全的开放世界代理系统出现，加速其从基准测试向真实部署的转化。

查看原文 →arxiv.org

AI代理能泛化到真实世界吗？静态训练工具使用存在脆弱性

速览

AI 深度解读

相关推荐