技术博客arXiv cs.AI·7 天前

交叉熵博弈与Frost训练

原标题：Cross-Entropy Games and Frost Training

速览

本文提出Frost训练方法，旨在改进基于蒙特卡洛的策略优化，专门针对交叉熵博弈这一类LLM-as-a-judge任务。该方法核心在于利用嵌入空间中奖励函数的梯度信号，首次证明该信号可用于提升模型训练效果。实验表明，Frost训练能显著提高模型生成高分输出的能力，在最佳-k设置下达到更高分数，并提升了训练速度。

AI 深度解读

Cross-Entropy Games 与 Frost Training：利用嵌入空间梯度增强大模型训练

背景

在大型语言模型（LLM）的强化学习对齐过程中，基于蒙特卡洛（Monte Carlo）的策略优化方法占据了重要地位。其中，“LLM-as-a-Judge”（以大模型作为评判者）的任务范式日益普及，即利用一个强大的模型来评估另一个模型的输出质量，从而提供奖励信号（Reward Signal）。

然而，传统的策略优化方法往往依赖于离散的奖励评分，这导致梯度信号稀疏且噪声较大。与此同时，在对抗性攻击领域，如 Greedy Coordinate Gradient (GCG) 越狱技术，研究人员已经发现利用奖励函数在嵌入空间（Embedding Space）中的梯度可以有效生成对抗样本。

本文提出了一种名为 Frost Training 的新方法，旨在解决上述问题。该方法将嵌入空间的梯度信号引入到策略优化训练中，特别是针对一类称为 Cross-Entropy Games（交叉熵游戏）的大模型评判任务。

核心内容

1. 核心概念：Cross-Entropy Games

文章首先定义了一类特定的 LLM-as-a-Judge 任务，称为 Cross-Entropy Games。这类任务的核心在于通过最大化模型输出与某种目标分布之间的交叉熵（或最小化负交叉熵）来优化策略。在这种设定下，模型不仅要生成符合人类偏好的文本，还要在由评判模型定义的“游戏”规则下获得高分。

2. Frost Training 方法详解

Frost Training 的核心创新点在于利用奖励函数在嵌入空间中的梯度。

技术原理：传统的强化学习算法（如 PPO）通常依赖标量奖励值来计算策略梯度。而 Frost Training 借鉴了 GCG 越狱技术中的思路，直接计算奖励模型（Reward Model）在嵌入空间上的梯度。

具体来说，当模型生成一个 token 时，Frost Training 不仅考虑最终的奖励分数，还利用奖励模型对嵌入向量的导数信息。这个梯度信号指示了在当前嵌入空间中，哪些方向的调整能够最有效地提升奖励模型的评分。
首次应用于训练：此前，嵌入空间梯度主要被用于 GCG 等对抗性攻击场景，以快速找到能绕过安全过滤器的输入。本文首次证明，这一信号同样可以用于提升模型本身的训练效果。通过将这些梯度信息整合到训练循环中，模型能够更精准地调整其参数，以生成高分输出。
验证实验：研究团队使用 GRPO（Group Relative Policy Optimization，组相对策略优化）算法进行最大似然填充（Maximum-Likelihood Infilling）训练，以验证 Frost Training 的有效性。

3. 性能表现

实验结果表明，引入 Frost Training 后：

生成质量提升：模型生成高分输出的能力显著增强。
最佳-K 设置下的优势：在 Best-of-K（从 K 个候选输出中选择最佳的一个）设置中，模型能够达到更高的最大分数。
训练效率提高：该方法不仅提升了效果，还加快了训练速度。

关键要点

方法名称：Frost Training。
应用场景：基于蒙特卡洛的策略优化，特别是针对 LLM-as-a-Judge 任务中的 Cross-Entropy Games。
核心机制：利用奖励函数在嵌入空间（Embedding Space）中的梯度信号。
技术渊源：该梯度信号此前主要用于 GCG（Greedy Coordinate Gradient）越狱攻击技术，本文首次将其用于正向训练优化。
验证算法：使用 GRPO（Group Relative Policy Optimization）进行最大似然填充训练。
主要收益：
1. 模型生成高分输出的能力增强。
2. 在 Best-of-K 评估设置中达到更高的最高分。
3. 训练速度提升。

意义与影响

Frost Training 的提出标志着大模型强化学习对齐技术的一个重要进展。它打破了传统上“嵌入空间梯度仅用于对抗攻击”的认知边界，证明了这一信号在优化模型生成能力方面的巨大潜力。

优化信号的高效利用：通过利用嵌入空间的细粒度梯度，模型能够比仅依赖标量奖励更快速、更准确地收敛到高质量输出区域。这对于解决奖励模型稀疏反馈导致的训练难题具有重要意义。
对抗与优化的统一视角：本文揭示了安全研究（越狱攻击）与模型对齐（策略优化）之间的深层联系。理解攻击者如何利用梯度信息，反过来可以帮助防御者和训练者更有效地引导模型行为。
提升 LLM-as-a-Judge 的实用性：随着 LLM-as-a-Judge 成为评估和训练大模型的主流范式，Frost Training 提供了一种更高效的训练手段，有助于构建更智能、更可靠的大模型系统。

总之，Frost Training 为基于奖励模型的策略优化提供了一种新的、更高效的梯度估计途径，有望成为未来大模型对齐训练中的重要工具。

查看原文 →arxiv.org