← 返回信息流
技术博客arXiv cs.AI·4 小时前

Web智能体完成却失败:可复现触发与并行探索诊断

原标题:When Web Agents Finish but Still Fail: Reproducible Triggers and Trace Diagnostics for Parallel Web Exploration

速览

长程Web智能体常在最终答案评估中隐藏失败,如遗漏字段或依赖过时证据。研究提出Parallel WebBench基准,通过GRPO训练智能体,显著提升了完成率和部分正确性。追踪分析揭示了上下文搜索循环、过早终止和合成崩溃三种持续失败模式,指出需加强证据覆盖与合成诊断。

AI 深度解读

AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org