技术博客arXiv cs.CL·3 小时前

基于网页图中心性的预训练数据选择方法

原标题：Hubs or Fringes: Pretraining Data Selection via Web Graph Centrality

速览

研究人员提出WebGraphMix框架，通过计算Common Crawl主机级网页图的结构中心性分数，动态调整预训练数据中核心与边缘文档的比例。该方法无需模型训练或标注数据，将核心与边缘数据以1:1混合可显著提升模型在23项任务上的平均表现。实验证明网页图拓扑结构是预训练数据筛选的有效维度，能捕捉与内容方法正交的信息。

AI 深度解读

Hubs or Fringes: Pretraining Data Selection via Web Graph Centrality

背景

现代大型语言模型（LLMs）的性能在很大程度上取决于预训练数据的构成。随着模型规模的扩大，数据的质量和多样性成为决定模型能力的关键因素。然而，现有的数据选择方法通常存在两个主要痛点：

计算开销大：依赖辅助分类器对文档进行打分，或者通过复杂的混合优化算法来调整数据比例，这增加了训练前的预处理成本。
依赖标注数据：许多方法需要大量的人工标注数据或下游任务的监督信号来指导数据筛选，这在大规模无监督预训练场景下难以扩展。

在这种背景下，如何以低成本、无需标注的方式，从海量的 Common Crawl 数据中筛选出对模型最有价值的文档，成为了一个亟待解决的工程与科学问题。

核心内容

本文提出了一种名为 WebGraphMix 的轻量级数据选择框架。该框架的核心思想是利用网页图（Web Graph）的结构中心性（Centrality）来指导预训练数据的混合比例，而非依赖内容本身的语义质量或外部分类器。

1. 核心假设：中心节点与边缘节点的功能互补

作者提出了一个关于网页拓扑结构与模型能力之间关系的假设：

中心节点（Hubs/Central Hosts）：这些是互联网上连接众多其他页面的高权重网站（如维基百科、主流新闻门户等）。作者假设，来自这些中心主机的文档向模型暴露了可重用的抽象概念（reusable abstractions），有助于模型学习通用的语言结构和常识。
边缘节点（Fringes/Peripheral Hosts）：这些是连接较少、处于网络边缘的网站。作者假设，这些主机编码了专业化的、长尾的（long-tail）知识，有助于提升模型在特定领域或细节事实上的表现。

基于此，作者认为预训练数据中应当包含一定比例的“中心”文档和“边缘”文档，且两者具有互补性。

2. WebGraphMix 方法详解

WebGraphMix 是一种无需训练、无需标注数据的筛选机制，其工作流程如下：

构建网页图：基于 Common Crawl 数据，构建主机级别（host-level）的网页图。
计算中心性得分：利用图算法高效计算每个主机在图中的结构中心性得分（Centrality Scores）。这种方法在网页规模上运行效率极高，不需要训练任何模型。
数据分层与混合：根据中心性得分，将文档分为“中心”和“边缘”两类，并在预训练数据混合中调整这两类文档的比例。

3. 实验设置与结果

为了验证该框架的有效性，作者将其集成到 DataComp-LM 数据管道中，并进行了以下实验：

模型规模：分别训练了 400M 和 1B 参数规模的模型。
数据量：分别使用了 8B 和 28B tokens 的数据进行预训练。
评估基准：在 23 个任务上进行评估，涵盖从事实知识到符号推理等多个维度。

主要实验发现：

中心与边缘的互补性：实验证实，网页的中心区域和边缘区域编码了模型所需的互补能力。
混合策略优于均匀采样：
- 以 1:1 的比例混合中心文档和边缘文档，平均得分达到 41.4%。
- 相比之下，均匀采样（Uniform Sampling）的平均得分仅为 39.8%。
结合内容质量进一步提升：当将结构中心性得分与文档级的质量分类器得分（document-level quality classifier scores）结合使用时，性能进一步提升至 43.8%。

关键要点

无需标注与训练：WebGraphMix 完全基于网页图的结构特征，不需要任何人工标注数据，也不需要训练额外的分类模型，极大地降低了数据准备的门槛。
拓扑结构即信号：研究证明，网页图的拓扑结构（Topology）是一个有意义的预训练数据策展维度。它捕获的信息与现有的基于内容（content-based）的方法 largely orthogonal（几乎正交/互不重叠），因此可以作为补充信号。
1:1 混合比例最优：在基础实验中，中心文档与边缘文档的 1:1 混合比例带来了显著的性能提升，表明模型既需要通用的抽象知识，也需要长尾的专业知识。
组合策略效果最佳：结构特征（Web Graph Centrality）与内容质量特征（Quality Classifier）结合使用，能产生协同效应，达到最高的评估分数。

意义与影响

这项研究为大规模语言模型的预训练数据工程提供了新的视角：

降低数据筛选成本：通过利用现成的网页图结构信息，研究人员可以避免训练昂贵的辅助分类器，从而以更低的计算成本实现高质量的数据筛选。
重新审视数据多样性：传统的观点往往倾向于选择“高质量”或“高置信度”的内容，而本研究指出，处于网络边缘的“低连接度”内容同样蕴含重要价值。这提示我们在构建预训练数据集时，应有意保留一定比例的长尾和边缘内容，以防止模型过度拟合主流知识分布。
方法论的普适性：WebGraphMix 作为一种轻量级框架，可以方便地集成到现有的数据流水线（如 DataComp-LM）中，为其他研究者和工业界团队提供了一种可复现、高效的数据混合策略。

总之，WebGraphMix 证明了互联网的结构本身就是一个巨大的、未被充分利用的信号源，合理利用这一信号可以显著提升语言模型的综合能力。

查看原文 →arxiv.org