ACL 2026 精选论文分享:美团履约团队前沿技术专场
速览
美团业务研发平台/履约 AI 算法团队聚焦大模型 Agent 技术体系,用 AI 赋能履约业务,构建自进化的运营系统。在 ACL 2026 精选论文分享中,团队重点展示了五篇前沿技术论文:GeoRA 用于 RLVR 参数高效优化,CoT-Flow 实现推理路径高效建模,UserLM-R1 提升用户模拟器推理能力,Fine-Mem 优化长时记忆管理,以及 DuplexOmni 实现全双工多模态实时交互。这些成果持续深耕 CPT、Post-training、Agentic RL 和多模态等核心方向,已在 ACL、EMNLP 等顶会发表数十篇高质量研究,为 AI 在美团履约业务中的落地提供了有力支持,推动技术实践向更高效率与智能化迈进。
AI 深度解读
背景
ACL 2026 是自然语言处理领域最具权威的国际会议之一,本次会议上,美团业务研发平台/履约 AI 算法团队举办了专场论文分享,聚焦于履约场景下的大模型 Agent 技术前沿方向。该团队长期深耕大模型 CPT、Post-training、Agentic RL 以及多模态理解等核心前沿技术,已在 ACL、EMNLP 等顶级 AI 会议发表数十篇高质量研究成果。本次分享涵盖 5 篇核心论文,旨在展示团队在构建 Agent 自进化运营系统、用 AI 赋能美团履约业务方面的最新进展。这些研究紧密围绕 RLVR、推理优化、多模态交互和记忆管理等关键方向,体现了美团团队将前沿理论与实际业务场景深度结合的实践路径。
核心内容
GeoRA: Geometry-Aware Low-Rank Adaptation for RLVR
该论文针对可验证奖励的强化学习(RLVR)提出了一种专为 RLVR 定制的低秩适配方法——GeoRA。RLVR 是提升大规模推理模型能力的关键范式,与监督微调(SFT)存在显著差异,其优化动力学与预训练几何结构高度敏感。现有低秩适配方法如 PiSSA 和 MiLoRA 主要面向 SFT 设计,直接应用于 RLVR 会导致谱塌缩和训练不稳定;此外,直接微调受 RLVR 青睐的非结构化稀疏参数子空间,在现代硬件上易遭遇效率瓶颈。
为解决上述挑战,GeoRA 利用 RL 更新子空间的各向异性与可压缩结构,通过奇异值分解(SVD)提取主方向作为低秩适配器的初始化参数。在训练过程中,冻结残差分量作为结构锚点,既保留了预训练结构,又实现了高效稠密计算。在 Qwen 和 Llama 模型(参数规模 1.5B 到 32B)上进行实验,GeoRA 在数学、医学和代码等 RLVR 场景中持续优于强基线方法,同时在域外任务上展现出更强的泛化能力和更少的遗忘。
Efficient Paths and Dense Rewards: Probabilistic Flow Reasoning for Large Language Models
本论文提出 CoT-Flow 理论框架,将离散推理步骤重新建模为连续概率流,借鉴整流流(Rectified Flow)理论。推理过程被视为将模型信息状态从初始问题平滑传输到真实答案的连续过程,每一步被视为推动推理过程逼近目标的“速度向量”,从而严格量化每一步的瞬时信息增益。
基于此,设计出基于对比解码的贪心解码策略,使回答长度平均减少 10%~15%,在 AIME24 上准确率提升高达 15.9%。同一框架下导出的 RL loss,在与 GRPO、VeriFree 等 baseline 相比时,在 AIME24、GPQA 等 benchmark 上取得接近或更高的准确率,同时实现 11%~37% 的长度压缩和 32% 的训练加速。
UserLM-R1: Modeling Human Reasoning in User Language Models with Multi-Reward Reinforcement Learning
论文提出 UserLM-R1,一种具备推理能力的新型用户语言模型,用于构建智能体后训练的核心交互环境。理想的用户模拟器应具备跨领域泛化能力,并能主动通过质疑或议价等方式参与协商。
现有方法存在两类问题:一是依赖静态且缺乏上下文感知的用户画像,在新场景中需大量人工重新设计,泛化能力有限;二是忽视人类策略性思维,导致智能体易于操控模拟器。为此,UserLM-R1 首先构建兼顾静态角色与动态场景目标的综合用户画像;进而提出目标驱动的决策策略,在生成回复前产生高质量推理链,通过监督微调与多奖励强化学习进一步提升推理能力和策略水平。大量实验表明,UserLM-R1 显著优于各竞争基线,尤其在更具挑战性的对抗测试集上表现突出。
Fine-Mem: Fine-Grained Feedback Alignment for Long-Horizon Memory Management
该论文提出 Fine-Mem,一种专为细粒度反馈对齐设计的统一框架,用于大型语言模型代理的长期任务执行和内存管理。现有基于 RL 的内存管理器代理主要依赖最终任务性能作为主要奖励,导致奖励稀疏、信用分配无效,无法为单个内存操作提供足够指导。
Fine-Mem 引入“块级步骤奖励”,通过辅助的特定块问题回答任务提供即时步骤级监督;同时设计“基于证据的奖励归因”,将信用锚定到关键记忆操作,基于推理中用作证据的特定记忆项重新分配全局奖励。这些组件共同实现稳定策略优化,将局部记忆操作与长期效用统一。在 Memalpha 和 MemoryAgentBench 上,Fine-Mem 在各种子任务中均优于强大基线,取得更高成功率。进一步分析显示其在不同模型配置和主干网络中具有强适应性和泛化能力。
DuplexOmni: Real-Time Listening, Seeing, Thinking, and Speaking for Full-Duplex Interaction
论文提出 DuplexOmni,一种用于实时多模态全双工交互的方法。人类交互本质上是连续、多模态和全双工的,而现有通用模型难以在统一系统中实现低延迟实时交互与复杂推理及工具使用的结合。
DuplexOmni 将模型能力划分为交互层和思考层,通过异步并行协作连接两者。交互层由 DuplexOmni 模型实现,接收流式音频和视频输入并实时生成文本和语音响应;思考层作为可插拔外部模块,提供复杂推理和工具使用功能。为支持此范式,团队研发了 Writer-Director 数据管道,用于构建连续交互训练数据。实验表明,DuplexOmni 在多个公开基准测试上表现突出,并展现出自然的双工交互能力。
关键要点
- GeoRA 通过 SVD 主方向初始化并冻结残差分量,专为 RLVR 定制,既保留预训练几何结构,又解决谱塌缩问题,在数学、医学、代码场景及域外任务上优于现有低秩基线。
- CoT-Flow 将推理建模为概率流,每步量化信息增益,实现对比解码贪心策略,平均压缩回答长度 10%~15%,AIME24 准确率提升 15.9%,RL loss 在多个 benchmark 上优于 GRPO、VeriFree,并实现训练加速。
- UserLM-R1 构建动态用户画像并结合目标驱动推理链,多奖励 RL 提升策略水平,在对抗测试集中显著优于基线。
- Fine-Mem 引入块级步骤奖励和基于证据的归因,实现细粒度反馈对齐,在长期记忆管理任务上优于基线,展现跨模型配置的强泛化能力。
- DuplexOmni 分层交互与思考机制,通过异步协作支持全双工多模态实时交互,Writer-Director 数据管道保障训练效果。
意义与影响
这些论文体现了美团履约团队将 RLVR、概率流推理、多模态全双工及细粒度 Agent 记忆管理等前沿技术转化为实际业务落地的探索路径,有助于构建大模型为基础的自进化 Agent 体系,提升履约场景下的智能决策效率和用户体验。GeoRA 缓解了 RLVR 训练稳定性与泛化问题,CoT-Flow 优化推理过程,UserLM-R1 增强用户模拟能力,Fine-Mem 提供长期任务记忆优化,DuplexOmni 推动多模态实时交互,这些成果为 ACL 等国际会议贡献了高水平研究,并为美团在 AI 赋能履约业务中的 Agent 自进化系统建设提供了技术支撑。团队的持续深耕,标志着中文科技企业在大模型 Agent 方向的领先实践,预计这些技术将在行业内引发更多关于效率、安全性和多模态交互的应用探索与落地。
