技术博客arXiv cs.CL·3 小时前

CacheRL：缓存强化学习让小型智能体逼近GPT-5性能

原标题：CacheRL:Multi-Turn Tool-Calling Agents via Cached Rollouts and Hybrid Reward

速览

CacheRL是一种训练小型智能体基础模型的系统，在多步工具调用任务中达到92%的过程准确率，接近GPT-5的94%。该方法通过混合思维轨迹、三级模糊缓存及缓存感知奖励，解决了知识迁移、执行成本和噪声环境下的鲁棒学习难题。实验表明，其显著提升了Qwen3-4B-Thinking的性能，证明了数据质量和奖励设计对构建实用小型智能体的关键作用。

AI 深度解读

CacheRL：通过缓存回退与混合奖励实现多轮工具调用智能体

背景

随着大语言模型（LLM）向智能体（Agent）形态演进，具备多轮工具调用（Multi-Turn Tool-Calling）能力成为衡量模型实用性的关键指标。然而，训练能够高效执行复杂多步任务的小型智能体基础模型（Small Agent Foundation Models）面临三大核心挑战：

知识迁移规模化难题：如何将大型模型中蕴含的工具调用知识高效、大规模地迁移到小型模型中。
强化学习的高昂成本：传统的强化学习（RL）往往依赖实时（Live）工具执行，这不仅计算成本极高，还受限于外部API的稳定性与延迟。
缓存环境的噪声干扰：利用缓存（Cache）模拟工具执行以降低成本时，缓存的不准确性会引入噪声，导致模型难以从错误反馈中鲁棒学习。

针对上述痛点，研究团队提出了 CacheRL 系统。该系统旨在通过创新的缓存回退机制和混合奖励设计，在大幅降低计算资源需求的同时，显著提升小型模型的智能体能力。

核心内容

CacheRL 是一个专为训练小型智能体基础模型而设计的系统。在多项多步工具调用任务中，该系统实现了 92% 的过程准确率（Process Accuracy），这一成绩仅略低于 GPT-5 的 94%，但其所需的计算资源仅为后者的 1/100。

CacheRL 通过以下三项关键创新解决了上述挑战：

1. 混合思维轨迹管道（Hybrid Thinking Trajectory Pipeline）

传统的训练数据通常只包含“调用什么工具”的结果，而缺乏“为什么调用”的逻辑。CacheRL 引入了一种混合思维轨迹管道，利用大型语言模型（LLM）生成推理痕迹（Reasoning Traces），并将其增强到智能体的轨迹中。

作用：生成的训练示例不仅教会模型调用哪些工具，更教会模型背后的推理逻辑。这种知识迁移机制使得小型模型能够模仿大型模型的思维过程，从而显著提升性能。

2. CacheAgentLoop：消除实时执行成本

为了摆脱对昂贵实时工具执行的依赖，CacheRL 设计了 CacheAgentLoop。

三级模糊缓存（Three-tier Fuzzy Cache）：该机制通过三层缓存结构模拟工具执行结果，从而消除了实时调用的开销。
Token级掩码（Token-level Masking）：为了保持轨迹的保真度（Fidelity），系统使用 Token 级别的掩码技术来处理缓存中的不确定性，确保模型在训练时能接触到接近真实环境的反馈，而非完全错误的模拟数据。

3. 缓存层级感知奖励（Cache-tier-aware Reward）

在缓存环境中，由于缓存可能返回近似或错误的结果，直接惩罚模型会导致其学习偏差。CacheRL 提出了一种动态调整答案质量权重的奖励机制。

机制：根据缓存层级的可靠性，动态调整对答案质量的评估权重。
目的：避免模型因为缓存引入的局限性（而非模型自身能力不足）而受到不公正的惩罚，从而促进模型在噪声环境中的鲁棒学习。

实验结果与消融研究

性能提升：通过迭代式的监督微调（SFT）和组相对策略优化（GRPO），CacheRL 将 Qwen3-4B-Thinking 模型的验证奖励从 0.43 提升至 0.78。
基准测试：在公开的智能体工具调用基准测试中，该模型的性能可与 GPT-5 等前沿模型相媲美。
消融实验：
- 移除知识迁移机制会导致性能下降 41%，证明了大型模型思维轨迹增强的重要性。
- 引入缓存感知奖励带来了 17% 的性能提升，验证了奖励设计在噪声环境中的关键作用。

关键要点

高性价比：CacheRL 以 1/100 的计算成本，实现了接近 GPT-5（92% vs 94%）的多步工具调用过程准确率。
三大创新架构：
1. 混合思维轨迹：结合 LLM 生成的推理痕迹，解决“知其然不知其所以然”的问题。
2. CacheAgentLoop：通过三级模糊缓存和 Token 级掩码，实现无实时执行的高保真训练。
3. 缓存层级感知奖励：动态调整权重，解决缓存噪声导致的训练偏差。
数据质量优于复杂优化：实验表明，强化学习（RL）主要提升了训练稳定性，但在强监督微调（SFT）基础上，RL 带来的额外收益有限。这暗示在构建实用型小型智能体时，数据质量和奖励设计比复杂的优化算法更为关键。
知识迁移是核心驱动力：消融研究证实，从大型模型迁移工具调用知识是性能提升的最大来源（贡献了约 41% 的性能差距）。

意义与影响

CacheRL 的提出标志着智能体训练范式的一个重要转变：从依赖昂贵实时交互转向基于高质量缓存模拟与知识迁移的高效训练。

降低智能体开发门槛：通过大幅降低计算需求（100倍节省），使得研究机构和个人开发者能够以极低的成本训练出具备前沿能力的智能体模型，无需依赖顶级算力集群。
重新定义 RL 在智能体训练中的角色：研究结果挑战了“强化学习是智能体能力跃升唯一途径”的固有认知。它表明，在数据质量和奖励机制设计得当的前提下，监督微调（SFT）结合高效的缓存模拟，足以构建高性能的小型智能体。这为未来智能体训练提供了更务实、更经济的技术路线。
推动小型模型在边缘场景的应用：高性能的小型智能体模型更容易部署在资源受限的边缘设备或私有化环境中，有助于加速 AI 智能体在工业、医疗等对数据隐私和响应速度有严格要求领域的落地。

总之，CacheRL 不仅是一个技术突破，更是一个关于“如何高效利用数据与奖励信号来弥补模型规模不足”的深刻启示。它证明了在智能体领域，巧妙的工程设计与数据策略往往比单纯的模型缩放更具性价比。

查看原文 →arxiv.org