技术博客arXiv cs.CL·3 小时前

Agent技能评估与进化：框架与基准综述

原标题：Agent Skill Evaluation and Evolution: Frameworks and Benchmarks

速览

本文系统综述了Agent技能从创建到自动化进化的评估框架与基准。研究将技能进化分为执行反馈、轨迹蒸馏、压缩和强化学习四类，并分析了六大技能基准的覆盖缺口与权衡。最后指出了构建通用、高效且可验证安全技能生态系统的开放方向。

AI 正在阅读原文并生成深度解读…（首次约 20–40 秒，之后秒开）