技术博客arXiv cs.AI·6 天前

何时及如何人类策展适得其反：多模型自消耗循环下的偏好对齐

原标题：When and How Human Curation Backfires: Preference Alignment under Multi-Model Self-Consuming Loop

速览

本文研究多模型交互下的自消耗训练范式，指出人类策展对模型对齐的影响会跨模型传播。与单模型不同，模型间的相互作用可能抵消甚至逆转人类策展的正面效果，导致长期对齐能力下降。该发现对合成数据训练和模型迭代策略具有重要警示意义。

AI 深度解读

当人工策展适得其反：多模型自消耗循环下的偏好对齐

来源：arXiv cs.AI 提交日期：2026年5月28日标题：When and How Human Curation Backfires: Preference Alignment under Multi-Model Self-Consuming Loop

背景

随着基础大模型（Foundation Models）的迭代，一种新的训练范式正在兴起：模型不再仅仅依赖真实的人类数据，而是越来越多地利用由前代模型生成的合成数据进行训练。这种“自消耗”（Self-consuming）的训练方式虽然提高了数据获取的效率，但也带来了严重的风险，可能导致模型崩溃（Model Collapse）、分布发散或偏见放大。

针对这一风险，近期的研究（如 Ferbach 等人，2024年）指出，在训练循环中引入“人工策展”（Human Curation，即由人类对合成数据进行筛选和修正）可以将自消耗模型的行为引导至符合人类偏好的方向。然而，这些现有分析主要局限于单一、孤立的模型场景，即模型仅消费自身产生的输出。

但在实际的大规模应用生态中，情况更为复杂。多个模型之间往往存在交互，一个模型可能会基于其他模型生成的输入-输出对进行训练。这种多模型间的相互影响构成了一个动态系统，而现有理论尚未充分解释在这种复杂交互下，人工策展的效果会发生何种变化。

核心内容

本文深入研究了多模型环境下的自消耗训练机制，重点分析了人工策展在其中的作用及其潜在的负面效应。

1. 多模型自消耗框架的数学形式化

作者首先建立了一个形式化的框架，用于描述相互作用的自消耗模型系统。在这个系统中，不同的模型不仅消费自己的历史输出，也消费其他模型生成的数据。研究进一步刻画了该动力系统在何种条件下能够收敛到一个稳定点（Stable Point）。这一理论构建为后续分析人工策展的影响提供了数学基础。

2. 人工策展的双重影响机制

文章重点考察了人工策展对模型对齐（Alignment）的两方面影响：

自我影响（Self-influence）：对某一特定模型进行人工策展，如何直接提升该模型本身的偏好对齐程度。
跨模型影响（Cross-influence）：对模型 A 的人工策展，如何通过数据交互传播并影响模型 B 的对齐状态。

3. “适得其反”的发现

在传统的孤立模型设定中，人工策展通常被认为总是能增强模型的对齐能力。然而，本文揭示了一个关键的反直觉现象：在多模型交互环境中，跨模型效应可能会削弱甚至逆转人工策展的正面作用。

具体而言，当模型 A 经过人工策展变得更符合人类偏好时，它生成的数据可能会污染模型 B 的训练集。如果模型 B 随后将这些带有特定偏差或过度拟合的数据反馈给模型 A，或者通过其他交互路径影响整个生态，这种反馈循环可能导致长期来看整体系统的对齐质量下降。换句话说，局部的优化（对单个模型的策展）可能在动态系统中引发全局的退化。

关键要点

自消耗训练的风险：基础模型过度依赖前代模型生成的合成数据，会导致模型崩溃、发散和偏见放大。
现有研究的局限：此前关于人工策展能改善对齐的研究，大多基于单一、孤立模型的假设，忽略了现实世界中多模型交互的复杂性。
多模型交互的动态性：在实际场景中，模型之间通过输入-输出对相互训练，形成一个复杂的动态系统。
人工策展的非线性效应：
- 在孤立系统中，人工策展通常有益。
- 在多模型系统中，人工策展的效果受到“跨模型影响”的调节。
负面反馈机制：跨模型交互可能会阻尼（dampen）甚至反转人工策展带来的对齐增益，导致长期对齐效果恶化。
收敛性条件：文章提供了判断多模型自消耗系统是否收敛到稳定点的理论框架。

意义与影响

这项研究对当前大模型训练和数据治理具有重要的警示意义：

重新评估数据清洗策略：在构建大规模预训练语料库或进行 RLHF（基于人类反馈的强化学习）时，不能简单地认为“加入人工筛选”就万事大吉。在多模型协同训练或数据共享的场景下，必须警惕人工策展可能引发的系统性偏差传播。
多模型生态的治理挑战：随着开源模型和私有模型之间数据交换的增加，单一模型的对齐优化可能会通过数据污染影响整个生态。开发者需要设计更鲁棒的隔离机制或去偏算法，以阻断负面的跨模型影响。
长期对齐的复杂性：模型的“对齐”不是一个静态属性，而是一个动态过程。短期的局部优化（如针对单个模型的人工策展）可能在长期动态系统中导致全局性能的下降。因此，评估对齐效果时，需要引入长期动态视角，而非仅看单次迭代的指标。

总之，本文提醒技术社区，在拥抱合成数据带来的效率提升时，必须深入理解多模型交互带来的动力学效应，避免陷入“越策展越偏离”的陷阱。

查看原文 →arxiv.org