← 返回信息流
技术博客arXiv cs.AI·6 天前

何时及如何人类策展适得其反:多模型自消耗循环下的偏好对齐

原标题:When and How Human Curation Backfires: Preference Alignment under Multi-Model Self-Consuming Loop

速览

本文研究多模型交互下的自消耗训练范式,指出人类策展对模型对齐的影响会跨模型传播。与单模型不同,模型间的相互作用可能抵消甚至逆转人类策展的正面效果,导致长期对齐能力下降。该发现对合成数据训练和模型迭代策略具有重要警示意义。

AI 深度解读

当人工策展适得其反:多模型自消耗循环下的偏好对齐

来源:arXiv cs.AI 提交日期:2026年5月28日 标题:When and How Human Curation Backfires: Preference Alignment under Multi-Model Self-Consuming Loop

背景

随着基础大模型(Foundation Models)的迭代,一种新的训练范式正在兴起:模型不再仅仅依赖真实的人类数据,而是越来越多地利用由前代模型生成的合成数据进行训练。这种“自消耗”(Self-consuming)的训练方式虽然提高了数据获取的效率,但也带来了严重的风险,可能导致模型崩溃(Model Collapse)、分布发散或偏见放大。

针对这一风险,近期的研究(如 Ferbach 等人,2024年)指出,在训练循环中引入“人工策展”(Human Curation,即由人类对合成数据进行筛选和修正)可以将自消耗模型的行为引导至符合人类偏好的方向。然而,这些现有分析主要局限于单一、孤立的模型场景,即模型仅消费自身产生的输出。

但在实际的大规模应用生态中,情况更为复杂。多个模型之间往往存在交互,一个模型可能会基于其他模型生成的输入-输出对进行训练。这种多模型间的相互影响构成了一个动态系统,而现有理论尚未充分解释在这种复杂交互下,人工策展的效果会发生何种变化。

核心内容

本文深入研究了多模型环境下的自消耗训练机制,重点分析了人工策展在其中的作用及其潜在的负面效应。

1. 多模型自消耗框架的数学形式化

作者首先建立了一个形式化的框架,用于描述相互作用的自消耗模型系统。在这个系统中,不同的模型不仅消费自己的历史输出,也消费其他模型生成的数据。研究进一步刻画了该动力系统在何种条件下能够收敛到一个稳定点(Stable Point)。这一理论构建为后续分析人工策展的影响提供了数学基础。

2. 人工策展的双重影响机制

文章重点考察了人工策展对模型对齐(Alignment)的两方面影响:

  • 自我影响(Self-influence):对某一特定模型进行人工策展,如何直接提升该模型本身的偏好对齐程度。
  • 跨模型影响(Cross-influence):对模型 A 的人工策展,如何通过数据交互传播并影响模型 B 的对齐状态。

3. “适得其反”的发现

在传统的孤立模型设定中,人工策展通常被认为总是能增强模型的对齐能力。然而,本文揭示了一个关键的反直觉现象:在多模型交互环境中,跨模型效应可能会削弱甚至逆转人工策展的正面作用。

具体而言,当模型 A 经过人工策展变得更符合人类偏好时,它生成的数据可能会污染模型 B 的训练集。如果模型 B 随后将这些带有特定偏差或过度拟合的数据反馈给模型 A,或者通过其他交互路径影响整个生态,这种反馈循环可能导致长期来看整体系统的对齐质量下降。换句话说,局部的优化(对单个模型的策展)可能在动态系统中引发全局的退化。

关键要点

  • 自消耗训练的风险:基础模型过度依赖前代模型生成的合成数据,会导致模型崩溃、发散和偏见放大。
  • 现有研究的局限:此前关于人工策展能改善对齐的研究,大多基于单一、孤立模型的假设,忽略了现实世界中多模型交互的复杂性。
  • 多模型交互的动态性:在实际场景中,模型之间通过输入-输出对相互训练,形成一个复杂的动态系统。
  • 人工策展的非线性效应
    • 在孤立系统中,人工策展通常有益。
    • 在多模型系统中,人工策展的效果受到“跨模型影响”的调节。
  • 负面反馈机制:跨模型交互可能会阻尼(dampen)甚至反转人工策展带来的对齐增益,导致长期对齐效果恶化。
  • 收敛性条件:文章提供了判断多模型自消耗系统是否收敛到稳定点的理论框架。

意义与影响

这项研究对当前大模型训练和数据治理具有重要的警示意义:

  1. 重新评估数据清洗策略:在构建大规模预训练语料库或进行 RLHF(基于人类反馈的强化学习)时,不能简单地认为“加入人工筛选”就万事大吉。在多模型协同训练或数据共享的场景下,必须警惕人工策展可能引发的系统性偏差传播。
  2. 多模型生态的治理挑战:随着开源模型和私有模型之间数据交换的增加,单一模型的对齐优化可能会通过数据污染影响整个生态。开发者需要设计更鲁棒的隔离机制或去偏算法,以阻断负面的跨模型影响。
  3. 长期对齐的复杂性:模型的“对齐”不是一个静态属性,而是一个动态过程。短期的局部优化(如针对单个模型的人工策展)可能在长期动态系统中导致全局性能的下降。因此,评估对齐效果时,需要引入长期动态视角,而非仅看单次迭代的指标。

总之,本文提醒技术社区,在拥抱合成数据带来的效率提升时,必须深入理解多模型交互带来的动力学效应,避免陷入“越策展越偏离”的陷阱。

查看原文 →arxiv.org