技术博客arXiv cs.CL·3 小时前

帮助性训练削弱中期训练注入的同情价值观

原标题：Helpfulness Hurts: Domain-Dependent Degradation of Mid-Trained Compassion Values Under Post-Training

速览

研究指出，标准后训练流程中的监督微调（SFT）和强化学习（RL）在提升模型帮助性时，可能意外削弱预训练阶段注入的价值观。实验显示，基于帮助性数据的训练使Llama 3.1 8B模型在动物同情和道德推理基准上表现显著下降，而代码训练则能更好地保留这些价值观。这表明在构建价值导向模型时，代码域后训练可能是比帮助性训练更优的选择。

AI 深度解读

助益性之痛：后训练过程中领域依赖性导致的中期训练同情心价值退化

背景

大型语言模型（LLM）的标准后训练（Post-Training）流程通常包含监督微调（SFT）和强化学习（RL）两个阶段，其核心目标往往是提升模型的“助益性”（Helpfulness），即让模型更乐于回答用户问题、遵循指令。然而，这一过程可能会无意中破坏模型在预训练或中期训练（Mid-Training）阶段所内化的价值观。

近期一项发表于 arXiv 的研究《Helpfulness Hurts: Domain-Dependent Degradation of Mid-Trained Compassion Values Under Post-Training》深入探讨了这一现象。研究聚焦于一个特定场景：当模型经过以“动物同情心”为导向的合成数据进行中期训练后，不同领域的后训练数据（助益性 vs. 编程）如何差异化地影响这些价值观的保留情况。

研究团队使用 Llama 3.1 8B 模型，通过两种独立的助益性数据集和两种训练范式（SFT 和 GRPO），在 Animal Harm Benchmark (AHB 2.2) 和 MORU (Moral Reasoning Under Uncertainty) 基准上进行了评估。这项研究揭示了在构建具有价值观的模型时，后训练领域选择的重要性及其潜在的副作用。

核心内容

1. 实验设计与方法论

研究旨在验证一个假设：后训练数据的领域（Domain）会显著影响模型对中期训练中习得的价值观的保留能力。

基础模型与中期训练：使用 Llama 3.1 8B 作为基座模型，并对其进行以“同情心”为导向的合成数据中期训练，旨在植入动物保护等价值观。
后训练对比组：
- 助益性训练（Helpfulness）：
  - SFT 阶段：使用 Dolly-15k 数据集。
  - RL 阶段：使用 RLHFlow 数据集。
- 编程训练（Coding）：
  - SFT 阶段：使用 Magicoder-110K 数据集。
  - RL 阶段：使用 Magicoder 数据集。
评估基准：
- AHB 2.2 (Animal Harm Benchmark)：专门用于评估模型对动物伤害行为的道德判断和同情心水平。
- MORU (Moral Reasoning Under Uncertainty)：用于评估模型在不确定性下的通用道德推理能力，包含英文和多语言版本。

2. 主要发现：助益性训练显著削弱同情心

实验结果显示，相对于编程训练，助益性训练对动物同情心价值观造成了显著的退化。

在 AHB 基准上的表现：
- SFT 阶段：助益性训练组的得分仅为 35.7%，而编程训练组高达 65.2%。
- GRPO (RL) 阶段：助益性训练组的得分降至 18.7%，而编程训练组为 32.0%。
- 这一结果在两个独立的助益性数据集和两种不同的训练范式（SFT 和 GRPO）中均得到复现，表明助益性优化确实以牺牲动物同情心为代价。

3. 通用道德推理的退化与跨语言差异

研究进一步考察了这种退化是否影响更广泛的道德推理能力，并分析了语言因素的影响。

英文 MORU 基准：
- 助益性训练导致通用道德推理能力大幅下降 25.5 个百分点（46.4% vs. 71.9%）。这一差距在 magnitude（量级）上与同情心效应的退化相当，显示出助益性训练对通用推理能力的潜在损害。
多语言 MORU 基准：
- 有趣的是，这种领域效应并未跨语言迁移。在多语言 MORU 基准上，助益性训练与编程训练之间的差异消失（SFT: 52.3% vs. 51.2%）。
动物同情心的跨语言迁移：
- 与通用道德推理不同，动物同情心效应表现出一致的跨语言迁移性。数据显示，Magicoder（编程）相对于基座模型在 AHB 上的提升幅度，在非英语项目上是英语项目的 4.5 倍。

4. 编码机制的深度差异

研究指出，这种差异暗示了价值观与推理能力的编码深度不同：

通过中期训练内化的价值观（如动物同情心）似乎被编码得更深，且具有更强的跨语言鲁棒性。
相比之下，通过特定领域后训练（如助益性或编程）获得的推理改进，可能更依赖于特定的语言或领域特征，因此更容易受到后训练领域选择的干扰。

关键要点

助益性训练的代价：标准以提升“助益性”为目标的 SFT 和 RL 后训练，会显著降低模型在动物同情心基准（AHB）上的表现。编程领域的后训练能更好地保留这些价值观。
跨范式复现：无论是监督微调（SFT）还是基于 GRPO 的强化学习，助益性训练对同情心的负面影响都是一致的，且编程训练始终优于助益性训练。
通用推理受损：助益性训练不仅影响特定价值观，还会导致通用道德推理能力（英文 MORU）的大幅下降，降幅超过 25 个百分点。
语言特异性：助益性训练对通用道德推理的负面影响主要局限于英文语境，在多语言基准上该效应消失；但动物同情心的保留情况则表现出跨语言的一致性。
编码深度差异：中期训练内化的价值观比后训练优化的推理能力具有更深的编码基础和更强的跨语言迁移性。
实践建议：对于基于价值观中期训练构建模型的实验室，使用编程领域数据进行后训练，可能比使用助益性数据更能保留中期训练植入的价值观，且不会损害通用推理能力。

意义与影响

这项研究对当前大模型开发流程提出了重要的警示和建议：

重新评估“助益性”优先策略：当前行业普遍将提升模型助益性作为后训练的首要目标，但本研究证明这可能以牺牲已植入的伦理价值观为代价。开发者需要权衡助益性提升与价值观保留之间的平衡。
后训练数据领域的选择至关重要：并非所有后训练数据对价值观的影响都是中性的。编程数据似乎比通用助益性数据更能“兼容”或“保护”中期训练中的伦理价值观。这为模型微调提供了新的策略方向。
价值观对齐的鲁棒性：研究揭示了价值观编码与推理能力编码在跨语言鲁棒性上的差异。这意味着在构建多语言模型时，基于中期训练的价值观对齐可能比基于后训练的推理优化更稳定。
对 AI 安全与对齐工作的启示：在构建具有复杂价值观（如动物保护、社会公平等）的模型时，单纯依赖助益性后训练可能适得其反。实验室应谨慎选择后训练数据的领域，或探索混合领域策略，以在提升模型能力的同时保护核心伦理价值。

总之，该研究强调了后训练阶段并非简单的“能力增强”过程，而是一个可能重塑模型价值观的关键环节。开发者需更加精细地设计后训练管道，以避免“助益性之痛”（Helpfulness Hurts）。

查看原文 →arxiv.org