← 返回信息流
AI 资讯雷峰网·3 小时前

上海交大腾讯提出BALTO框架,实现大模型Token级幻觉精准消除

原标题:GAIR Paper 103|上海交大联合腾讯提出 Token 级别幻觉优化,实现大模型幻觉精准消除

速览

针对大模型幻觉稀疏但惩罚全局导致的奖励黑客问题,上海交大与腾讯联合提出BALTO强化学习框架。该框架在Token级别精准定位并惩罚幻觉内容,同时正向激励忠实事实,实现响应内零和平衡。实验表明,该方法在金融、RAG等场景中显著提升了模型忠实度与信息量的权衡,且训练更稳定高效。

AI 深度解读

GAIR Paper 103|上海交大联合腾讯提出 Token 级别幻觉优化,实现大模型幻觉精准消除

背景

大语言模型(LLM)在医疗、金融、法律等高风险场景中的部署,始终面临一个核心挑战——幻觉(Hallucination)。模型生成的内容可能包含与事实不符的实体、数字或逻辑关系,而这些错误往往隐藏在大量正确内容之中,极难检测和消除。

现有的主流强化学习方法(如 GRPO)通常采用响应级(Response-level)的信用分配机制,即对整条回答给予统一的分数。然而,研究团队在金融问答数据集 FinLLM-Eval 上的先导实验揭示了一个关键现象:

  • 幻觉在 Token 层面极其稀疏:每条回答中,幻觉 Token 平均仅占 2.77%,中位数仅 1.87%。
  • 幻觉在回答层面却非常普遍:94.7% 的采样组中至少包含一条含有幻觉的回答。

这意味着,大多数回答只有极少数 Token 出了问题,但传统方法会给整条回答打一个统一的低分。当少量幻觉 Token 导致低分时,回答中大量正确的内容也会被错误地惩罚。这不仅降低了幻觉消除的效果,还会诱导模型生成更短、更保守的回答,以牺牲信息量为代价来“避险”,这正是所谓的奖励黑客(Reward Hacking)问题。

核心内容

来自上海交通大学与腾讯的研究团队提出了一种全新的强化学习框架——BALTO(Balanced Token-Level Policy Optimization,平衡 Token 级策略优化)。该框架通过平衡的 Token 级信用分配机制,旨在实现精准消除幻觉的同时,保持回答的丰富性。

BALTO 的设计理念可以概括为:只惩罚真正出错的 Token,同时给正确的事实 Token 以正向激励,保持整体信号的平衡。 整个框架分为两个阶段:

阶段一:细粒度幻觉 Token 检测

  1. 提取可验证的事实声明:从模型生成的回答中提取最小粒度的、可独立验证的事实声明(如实体、数值、日期、属性和关系等)。
  2. 逐一验证:将每条声明与参考文档进行比对,判定其为“忠实”或“幻觉”。
  3. 精准定位错误 Token:对于幻觉声明,进一步定位到最小的错误 Token 子集。例如,对于声明“总收入下降了11.4%”,只有“11.4%”这个数字被标记为幻觉 Token,而非整个句子。

阶段二:平衡的 Token 级信用分配

BALTO 为每个 Token 分配精准的优势值(Advantage):

  • 幻觉 Token:优势值为 -1(负向惩罚)。
  • 忠实事实 Token:优势值为 $N^-/N^+$(正向补偿,其中 $N^-$ 和 $N^+$ 分别是幻觉 Token 和忠实 Token 的数量)。
  • 中性 Token(非事实性内容):优势值为 0(不参与优化)。

这一设计具有一个优雅的数学性质——响应内零和平衡:每条回答中,所有 Token 的优势值之和恰好为零。这意味着 BALTO 引导模型将概率质量从幻觉内容重新分配到忠实内容上,而不是压制整条回答的生成概率。

关键要点

  • 理论优势证明
    • 方差压缩:GRPO 的梯度方差与回答总长度 $T$ 成正比;BALTO 的梯度方差仅与幻觉 Token 数量 $N^-$ 成正比。由于 $N^- \ll T$,梯度方差可被大幅压缩,训练过程显著更稳定。
    • 全阶段优化效率:GRPO 在训练初期易陷入“梯度饥饿”,在后期易引发“惩罚爆炸”。BALTO 的 Token 级优势值始终有界于 [-1, 1],在训练初期提供最强纠错信号,在收敛阶段梯度自然衰减,全程稳定高效。
  • 实验评估结果
    • 数据集:在 ConFiQA(反事实问答)、RAGTruth(RAG 幻觉语料库)、FinLLM-Eval(金融问答)三个基准数据集上进行评估。
    • 模型与基线:使用 Qwen3-8B 和 Qwen3-4B,对比 SFT、DPO、GRPO(二值奖励/密集奖励)、FSPO 等方法。
    • 核心结论:BALTO 是唯一在忠实度和信息量之间实现一致最优权衡的方法。部分基线方法(如 FSPO)虽获得更高信息量,但以牺牲忠实度为代价。
  • 训练动态分析
    • 梯度更稳定:BALTO 的策略梯度范数比响应级方法小一个数量级(均值 0.020 vs. 0.145–0.214)。
    • 参数更新更高效:BALTO 仅更新约 12% 的模型参数即可达到 0.98 的忠实度,而 GRPO 需要更新约 17% 的参数才能达到 0.93。这说明 BALTO 能精准定位并修正产生幻觉的参数子集,最大程度保留模型的通用能力。
    • 收敛更快:在三个数据集上,BALTO 在训练早期阶段就取得了最快的忠实度提升,并用更少的训练步数达到更高的最终性能。
  • 消融实验验证
    • 完全移除正向优势(PA=0):忠实度和信息量均大幅下降。
    • 使用固定正向优势(PA=0.3 或 PA=1):性能不稳定,在不同数据集上表现参差不齐。
    • BALTO 的自适应平衡机制:在所有数据集上均实现最优表现。

意义与影响

BALTO 的设计体现了一个简洁而深刻的洞察:消除幻觉不是压制回答,而是精准地重新分配概率质量。

通过将事实检验的粒度从回答级下沉到 Token 级,并引入平衡的信用分配机制,BALTO 让强化学习的优化信号真正作用于“该改的地方”,避免了对正确内容的误伤。这一框架对于将大语言模型部署在对事实准确性要求极高的场景(如金融分析、医疗问诊、法律咨询等)具有重要的实践价值,为解决大模型在高风险领域落地时的可信度问题提供了新的技术路径。

查看原文 →leiphone.com