← 返回信息流
技术博客arXiv cs.AI·2 小时前

RLVR训练证明工具代理能在Jira与Confluence API中精准执行

原标题:Beyond Next-Token Prediction: An RLVR Proof of Concept for Tool-Use Agents on Atlassian Workflows

速览

本文探讨了大语言模型默认的下一token预测目标与企业SaaS API工作流需求之间的不匹配问题。通过构建五个模拟Jira REST v3和Confluence v2 API的合成环境,采用RLVR作为训练方法,奖励直接基于工具调用轨迹计算。实验显示,Qwen3-1.7B和Qwen3.5-4B模型在RL训练后,平均奖励从0.35-0.92提升至0.95-1.00,在页面创建场景中提升最为显著。这一证明了小模型在特定企业API上可实现高精度工具使用,有望为小型高效模型在企业场景中的应用提供新思路。

AI 深度解读

Beyond Next-Token Prediction: An RLVR Proof of Concept for Tool-Use Agents on Atlassian Workflows

背景

大语言模型(LLM)的核心训练目标是预测下一个token,而非在特定API环境中真正执行动作。在狭窄的企业SaaS工作流领域——其中成功标准在于精确命中正确端点、提供正确嵌套参数且按正确顺序组织——这种训练目标错配表现为无声的失败:缺失必填字段、幻觉式工具调用、或仅读取一次后过早停止。Atlassian Workflows(包括Jira REST v3和Confluence v2 API)正是此类环境的典型代表,需要模型严格遵守API模式以完成任务。

Reinforcement Learning with Verifiable Rewards(RLVR,译为可验证奖励强化学习)提供了一种直接将强化学习应用于目标环境的方法,本文作为初步尝试,构建了五种模拟Jira REST v3和Confluence v2 API的合成环境。奖励完全基于工具调用轨迹计算,无需真实API调用、无需学习到的评判器、无需人类标注循环。

核心内容

论文提出一个Proof of Concept(概念验证),核心在于通过RLVR直接在目标环境中优化小模型,实现工具使用代理超越纯next-token预测的目标。

首先,构建五种合成环境,这些环境忠实地复现Jira REST v3和Confluence v2 API的schema(架构),包括所有必要端点、参数结构和依赖关系。模型在这些环境中与工具调用接口交互,执行实际动作(如创建页面、转移票据等),但奖励仅从工具调用轨迹中提取,无需外部API或额外标注。

实验对比了未经优化的prompted Qwen3-1.7B和Qwen3.5-4B模型。评价标准是同一套checkers(校验器),这些checkers正是驱动GRPO(Group Relative Policy Optimization,组相对策略优化)训练的reward计算逻辑。结果显示,在四个奖励非退化(non-degenerate)的场景中,RL训练后的策略平均奖励从基线4B模型范围0.35–0.92显著提升至0.95–1.00。其中Confluence页面创建场景提升最为突出(0.35 → 1.00)。

论文明确定位本工作为面向niche enterprise APIs的outcome-optimised小型模型的初步步骤。作者同时指出需关注的两个局限性:

  1. 手工-crafted的可验证奖励在扩展到报告外的端点时无法规模化。
  2. 五种场景中之一(ticket-transition票据转移)的奖励形状为饱和状态(saturating reward shape),prompted的4B模型已达到其奖励上限。

关键要点

  • LLM训练目标为next-token预测,与企业API工具使用(需精确端点、嵌套参数、顺序执行)的需求存在错配,导致无声失败(如缺失字段、幻觉工具、过早停止)。
  • RLVR可直接在目标API环境中应用,通过工具调用轨迹计算可验证奖励(Verifiable Rewards),无需真实API调用、学习评判器或人类标注。
  • 构建五种合成环境模拟Jira REST v3和Confluence v2 API schema,实现工具使用代理的实际动作执行。
  • 使用同一套checkers(驱动GRPO训练的校验器)评估,prompted Qwen3-1.7B和Qwen3.5-4B基线平均奖励为0.35–0.92。
  • RL训练后平均奖励提升至0.95–1.00(四个非退化场景),Confluence页面创建场景从0.35提升至1.00。
  • 作为niche enterprise APIs outcome-optimised小型模型的初步步骤,适用于Atlassian Workflows等环境。
  • 局限性:手工可验证奖励不适合大规模端点扩展;ticket-transition场景奖励已饱和,prompted 4B模型已达上限。

意义与影响

本研究证明RLVR可有效桥接LLM的next-token预测与企业SaaS工作流工具使用的实际需求,尤其对Atlassian Jira和Confluence等niche API环境,显著提升了小型模型(Qwen3系列1.7B和4B)的工具调用成功率和可靠性。这一方法为开发outcome-optimised小型代理提供了可行路径,减少了对大型模型的依赖,同时保持低成本和可部署性。

在企业自动化领域,具有重要实用价值:过去模型常因API模式不符导致任务失败,而RLVR通过可验证奖励直接优化“成功结局”,实现真正的agentic行为。未来可扩展性仍受限于奖励工程,但作为概念验证,已为构建更高效的企业级工具使用系统奠定基础。

查看原文 →arxiv.org