技术博客arXiv cs.CL·1 天前

Regret Pre-training：桥接先验与后验视角增强知识锚定

原标题：Regret Pre-training: Bridging Prior and Posterior Views for Enhanced Knowledge Grounding

速览

该研究提出Regret Pre-training框架，基于LUPI范式解决因果语言模型无法利用未来信息的问题。通过双视图架构，模型在训练时利用包含未来上下文的Teacher分布，以后悔损失最小化其与Student分布的KL散度。实验显示，该方法在无需增加参数的情况下，显著提升了多项下游任务的准确率。

AI 深度解读

Regret Pre-training：弥合先验与后验视角，增强知识 grounding

背景

因果语言模型（Causal Language Models）是当前大语言模型（LLM）的主流架构，其核心机制是通过自回归方式，仅利用序列中当前位置之前的上下文来预测下一个 token。这种设计虽然在推理阶段符合人类逐字阅读的习惯，但在训练阶段却存在一个显著的局限性：尽管训练数据中包含了完整的句子或段落（即包含“未来”信息），模型在计算损失函数时却刻意忽略了这些未来的上下文信息。

这种“视而不见”导致了信息利用的不充分。传统的预训练目标仅基于先验视角（Prior View），即 $P(x_t | x_{<t})$，而完全放弃了后验视角（Posterior View）中蕴含的丰富语义线索。这就好比学生在考试复习时，只盯着前面的题目看，却忽略了整道题目的完整描述，导致对知识点的理解不够深刻，难以实现真正的“知识 grounding”（即让模型将抽象符号与具体语义事实牢固绑定）。

为了解决这一问题，本文引入了 Regret Pre-training（遗憾预训练）框架。该框架基于“使用特权信息学习”（Learning Using Privileged Information, LUPI）范式，旨在弥合先验与后验视角之间的鸿沟，通过一种无需额外参数的机制，将包含未来信息的“特权”信号有效地迁移到因果表示中。

核心内容

1. 理论框架：LUPI 与双视图架构

Regret Pre-training 的核心思想源自 Vapnik 提出的 LUPI 范式。在标准监督学习中，训练数据和测试数据具有相同的特征分布；但在 LUPI 中，训练阶段可以使用在测试阶段不可用的“特权信息”（Privileged Information）。在语言模型的语境下，完整的序列（包含未来 token）被视为训练时的特权信息。

该框架采用双视图架构，由单一模型生成两种分布：

Student 分布（学生分布）：遵循标准的因果语言建模，仅使用历史上下文 $x_{<t}$ 进行预测。这代表了模型在推理时必须遵守的约束。
Teacher 分布（教师分布）：利用包含未来信息的上下文（即双向或未来条件上下文）进行预测。这代表了模型在训练时可以利用的“上帝视角”。

2. 损失函数：Regret Loss

传统的语言建模损失仅最小化 Student 分布与真实标签之间的交叉熵。Regret Pre-training 在此基础上引入了 Regret Loss（遗憾损失）。

该损失函数旨在最小化 Teacher 分布与 Student 分布之间的 KL 散度（Kullback-Leibler Divergence）。通过这种方式，模型被鼓励去调整其因果表示，使其尽可能接近那个拥有“未来信息”的教师分布。简而言之，就是让模型在因果预测时，能够“后悔”没有充分利用未来信息，从而在训练过程中学会从未来语境中提取对当前预测有用的信号。

3. 实验配置：LocalRegret 与 GlobalRegret

作者在 OLMoE-1B-7B 架构上验证了两种不同的 Teacher 配置：

LocalRegret（局部遗憾）：这是一种轻量级的配置。它仅将注意力机制扩展到下一个未来 token（即 $x_{t+1}$）。这种设计模拟了短期的上下文依赖，计算开销极小。
GlobalRegret（全局遗憾）：这是一种更强的配置。它使用双向上下文来 conditioning（条件化）目标位置，但在计算 Teacher 分布时，将目标位置本身的 token 掩码（Mask）掉。这意味着模型必须利用整个句子（包括前后文）来推断当前 token 的语义，而不直接“偷看”答案。

4. 实验结果

研究团队在 40 亿 token 的训练数据上进行了预训练，并在九个下游任务上进行了评估。主要发现如下：

整体性能提升：两种配置均显著优于基线模型。
- GlobalRegret 平均准确率达到 33.9%。
- LocalRegret 平均准确率达到 32.2%。
- 基线模型的平均准确率仅为 30.2%。
特定任务突破：在 BoolQ（布尔问答）任务上，GlobalRegret 的表现尤为突出，准确率提升了 18.1 个百分点（从基线的 42.9% 提升至 61.0%）。这表明引入未来信息对于需要理解完整语境才能回答的推理任务至关重要。
效率优势：该框架不引入任何额外的模型参数。在训练过程中，每个步骤仅需额外执行一次推理模式的前向传播（forward pass）来计算 Teacher 分布，计算成本可控。

关键要点

解决因果模型的局限性：传统因果语言模型在训练时丢弃了未来信息，Regret Pre-training 通过 LUPI 范式重新利用了这些“特权”信息，提升了知识 grounding 能力。
KL 散度作为桥梁：通过最小化 Teacher（未来条件）与 Student（因果）分布之间的 KL 散度，将全局或局部的未来语义信号迁移到因果表示中。
两种实现路径：
- LocalRegret：仅看下一个 token，计算高效，适合短期依赖增强。
- GlobalRegret：利用双向上下文（掩码目标），提供全局语义理解，性能提升更显著，尤其在问答任务上。
零参数开销：该方法不增加模型参数量，仅增加少量的前向传播计算，易于集成到现有的预训练流程中。
显著的性能增益：在 4B token 训练规模下，GlobalRegret 在九个任务上平均超越基线 3.7 个百分点，在 BoolQ 任务上实现近 18% 的巨大飞跃。

意义与影响

Regret Pre-training 为大型语言模型的预训练策略提供了一个新颖且高效的视角。其意义主要体现在以下几个方面：

重新审视训练数据的信息价值：它证明了在训练阶段充分利用序列中的双向信息，即使最终模型仍需保持因果结构，也能显著提升模型的语义理解和推理能力。这挑战了“训练必须完全模拟推理过程”的传统观念，展示了“训练时看全貌，推理时看局部”的有效性。
低成本高性能优化：与通过增加模型规模或引入复杂的外部知识图谱来提升性能的方法不同，Regret Pre-training 仅通过改变损失函数和训练数据的使用方式，就实现了显著的性能提升。这种“软增强”策略对于资源受限的训练环境极具吸引力。
增强知识 Grounding：实验结果，特别是 BoolQ 任务的大幅提升，表明该方法能有效帮助模型将词汇与更广泛的语境事实联系起来。这对于减少幻觉（Hallucination）和提高事实一致性具有重要意义。
通用性潜力：由于该框架不依赖特定的架构修改，仅通过损失函数和数据处理逻辑的调整即可实现，因此可以很容易地应用于其他基于 Transformer 的因果语言模型，如 Llama、Mistral 等，具有广泛的适用前景。

总之，Regret Pre-training 是一种优雅且强大的技术，它通过弥合先验与后验视角的差距，为构建更智能、更可靠的语言模型开辟了一条新路径。

查看原文 →arxiv.org