技术博客arXiv cs.AI·2 小时前

RLVR训练证明工具代理能在Jira与Confluence API中精准执行

原标题：Beyond Next-Token Prediction: An RLVR Proof of Concept for Tool-Use Agents on Atlassian Workflows

速览

本文探讨了大语言模型默认的下一token预测目标与企业SaaS API工作流需求之间的不匹配问题。通过构建五个模拟Jira REST v3和Confluence v2 API的合成环境，采用RLVR作为训练方法，奖励直接基于工具调用轨迹计算。实验显示，Qwen3-1.7B和Qwen3.5-4B模型在RL训练后，平均奖励从0.35-0.92提升至0.95-1.00，在页面创建场景中提升最为显著。这一证明了小模型在特定企业API上可实现高精度工具使用，有望为小型高效模型在企业场景中的应用提供新思路。

AI 深度解读

Beyond Next-Token Prediction: An RLVR Proof of Concept for Tool-Use Agents on Atlassian Workflows

背景

大语言模型（LLM）的核心训练目标是预测下一个token，而非在特定API环境中真正执行动作。在狭窄的企业SaaS工作流领域——其中成功标准在于精确命中正确端点、提供正确嵌套参数且按正确顺序组织——这种训练目标错配表现为无声的失败：缺失必填字段、幻觉式工具调用、或仅读取一次后过早停止。Atlassian Workflows（包括Jira REST v3和Confluence v2 API）正是此类环境的典型代表，需要模型严格遵守API模式以完成任务。

Reinforcement Learning with Verifiable Rewards（RLVR，译为可验证奖励强化学习）提供了一种直接将强化学习应用于目标环境的方法，本文作为初步尝试，构建了五种模拟Jira REST v3和Confluence v2 API的合成环境。奖励完全基于工具调用轨迹计算，无需真实API调用、无需学习到的评判器、无需人类标注循环。

核心内容

论文提出一个Proof of Concept（概念验证），核心在于通过RLVR直接在目标环境中优化小模型，实现工具使用代理超越纯next-token预测的目标。

首先，构建五种合成环境，这些环境忠实地复现Jira REST v3和Confluence v2 API的schema（架构），包括所有必要端点、参数结构和依赖关系。模型在这些环境中与工具调用接口交互，执行实际动作（如创建页面、转移票据等），但奖励仅从工具调用轨迹中提取，无需外部API或额外标注。

实验对比了未经优化的prompted Qwen3-1.7B和Qwen3.5-4B模型。评价标准是同一套checkers（校验器），这些checkers正是驱动GRPO（Group Relative Policy Optimization，组相对策略优化）训练的reward计算逻辑。结果显示，在四个奖励非退化（non-degenerate）的场景中，RL训练后的策略平均奖励从基线4B模型范围0.35–0.92显著提升至0.95–1.00。其中Confluence页面创建场景提升最为突出（0.35 → 1.00）。

论文明确定位本工作为面向niche enterprise APIs的outcome-optimised小型模型的初步步骤。作者同时指出需关注的两个局限性：

手工-crafted的可验证奖励在扩展到报告外的端点时无法规模化。
五种场景中之一（ticket-transition票据转移）的奖励形状为饱和状态（saturating reward shape），prompted的4B模型已达到其奖励上限。

关键要点

LLM训练目标为next-token预测，与企业API工具使用（需精确端点、嵌套参数、顺序执行）的需求存在错配，导致无声失败（如缺失字段、幻觉工具、过早停止）。
RLVR可直接在目标API环境中应用，通过工具调用轨迹计算可验证奖励（Verifiable Rewards），无需真实API调用、学习评判器或人类标注。
构建五种合成环境模拟Jira REST v3和Confluence v2 API schema，实现工具使用代理的实际动作执行。
使用同一套checkers（驱动GRPO训练的校验器）评估，prompted Qwen3-1.7B和Qwen3.5-4B基线平均奖励为0.35–0.92。
RL训练后平均奖励提升至0.95–1.00（四个非退化场景），Confluence页面创建场景从0.35提升至1.00。
作为niche enterprise APIs outcome-optimised小型模型的初步步骤，适用于Atlassian Workflows等环境。
局限性：手工可验证奖励不适合大规模端点扩展；ticket-transition场景奖励已饱和，prompted 4B模型已达上限。

意义与影响

本研究证明RLVR可有效桥接LLM的next-token预测与企业SaaS工作流工具使用的实际需求，尤其对Atlassian Jira和Confluence等niche API环境，显著提升了小型模型（Qwen3系列1.7B和4B）的工具调用成功率和可靠性。这一方法为开发outcome-optimised小型代理提供了可行路径，减少了对大型模型的依赖，同时保持低成本和可部署性。

在企业自动化领域，具有重要实用价值：过去模型常因API模式不符导致任务失败，而RLVR通过可验证奖励直接优化“成功结局”，实现真正的agentic行为。未来可扩展性仍受限于奖励工程，但作为概念验证，已为构建更高效的企业级工具使用系统奠定基础。

查看原文 →arxiv.org

RLVR训练证明工具代理能在Jira与Confluence API中精准执行

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐