技术博客arXiv cs.CL·1 小时前

Spokes：基于G-Vendi分数优化预训练数据多样性

原标题：Spokes: Optimizing for Diverse Pretraining Data Selection

速览

该研究提出Spokes框架，直接优化基于G-Vendi分数的数据多样性，解决现有代理方法不足的问题。实验显示，该方法在FineWeb和DCLM数据集上生成的子集多样性显著优于随机采样。联合优化质量与多样性使SPOKES在下游任务中超越语义去重等基线方法，取得最佳性能。

AI 深度解读

Spokes：优化预训练数据选择的多样性策略

背景

在大规模语言模型的预训练阶段，数据选择（Data Selection）的质量直接决定了模型的最终性能。随着预训练语料库规模的爆炸式增长，从海量数据中筛选出高质量、高价值的样本变得至关重要。

多样性（Diversity）在数据选择中扮演着核心角色。通过减少数据中的冗余和重复，多样性能够显著提升在固定数据预算下的模型表现。然而，优化多样性是一个极具挑战性的任务，因为它是集合级属性（set-level property），取决于数据点之间的相互作用，而非单个样本的独立特征。

现有的主流方法通常依赖于代理指标（proxies）或近似算法来估算多样性。这些方法往往无法确保生成的子集具有足够高的多样性，导致模型可能仍然接触到大量重复或高度相似的内容，从而限制了泛化能力的提升。

核心内容

本文提出了一种名为 SPOKES 的新方法，旨在直接优化数据选择的多样性。该方法基于概率化的多样化框架，并引入了 G-Vendi 分数 作为核心优化目标，通过**指数梯度下降（exponentiated gradient descent）**算法进行求解。

1. 方法论：直接优化多样性

SPOKES 摒弃了传统的近似手段，转而直接对多样性进行优化。其核心在于使用 G-Vendi 分数来衡量数据集的多样性。G-Vendi 分数基于特征矩阵的特征值分布，能够更准确地捕捉数据子集内部的多样性程度。通过指数梯度下降算法，SPOKES 能够高效地找到使 G-Vendi 分数最大化的数据子集。

2. 实验评估

研究者在两个主流大规模预训练数据集上评估了 SPOKES 的性能：FineWeb 和 DCLM (Data Compilations for Language Models)。

多样性提升显著：在 50 万样本的子集上，SPOKES 生成的子集比随机采样（random sampling）的 G-Vendi 分数高出 +489，证明了其在减少冗余方面的巨大优势。
下游任务表现：
- 仅优化多样性（SPOKES diversity-only）：在 DCLM 和 FineWeb 上，相比随机采样，平均下游性能分别提升了 +0.4 和 +0.5 个点。
- 联合优化质量与多样性：当同时优化数据质量和多样性时，SPOKES 取得了最佳结果。在 DCLM 和 FineWeb 上，分别实现了 +1.5 和 +1.4 个点的性能增益。
对比基线：SPOKES 的表现优于所有基线方法，包括语义去重（semantic deduplication）和质量过滤（quality filtering）等现有主流技术。

关键要点

直接优化而非近似：SPOKES 通过基于 G-Vendi 分数的概率化框架，直接优化集合级的多样性，解决了传统代理指标无法保证足够多样性的问题。
算法效率：采用指数梯度下降（exponentiated gradient descent）作为优化器，使得在大规模数据集上优化多样性变得可行且高效。
显著的性能增益：
- 在多样性指标上，SPOKES 比随机采样高出 +489 (G-Vendi score)。
- 在联合优化质量和多样性的设置下，SPOKES 在 DCLM 和 FineWeb 数据集上分别带来 +1.5 和 +1.4 的性能提升，超越了语义去重和质量过滤等基线。
通用性验证：该方法在 FineWeb 和 DCLM 两个不同的预训练数据集中均表现出一致的优势，证明了其鲁棒性和通用性。

意义与影响

SPOKES 的提出为预训练数据选择领域提供了一个新的视角：多样性不应仅仅是事后筛选的辅助标准，而应作为核心优化目标之一。

突破冗余瓶颈：通过直接优化集合级多样性，SPOKES 能够有效打破数据中的冗余循环，让模型接触到更多样化的语言模式和知识领域，这对于提升模型的泛化能力和鲁棒性至关重要。
提升数据利用效率：在计算资源有限的情况下，SPOKES 证明了通过更智能的数据选择，可以在不增加数据量的前提下显著提升模型性能。这对于降低大模型训练的碳足迹和计算成本具有实际意义。
推动数据工程精细化：SPOKES 展示了将复杂的数学指标（如 G-Vendi 分数）与高效的优化算法（如指数梯度下降）结合在数据工程中的可行性，为后续研究如何更精细地控制预训练数据的分布提供了方法论参考。

总之，SPOKES 不仅在理论上解决了多样性优化的难题，更在实践中证明了“高质量+高多样性”数据策略相对于传统“去重+质量过滤”策略的显著优势，为大模型预训练的数据构建提供了强有力的新工具。

查看原文 →arxiv.org