技术博客arXiv cs.CL·7 小时前

解析Web级大模型预训练数据中的叙事内容特征

原标题：Characterizing Narrative Content in Web-scale LLM Pretraining Data

速览

该研究对3万亿token的Dolma语料库进行了细粒度叙事特征分析，构建了涵盖代理、场景和事件等11个维度的评估框架。通过微调NarraBERT模型，研究揭示了网络文本中连续多维的叙事结构，并发现叙事质量在不同来源和主题间分布不均。这一成果为理解大模型预训练数据的构成及其对叙事推理任务的影响提供了重要基础。

AI 深度解读

解析网络规模大语言模型预训练数据中的叙事内容

背景

尽管叙事（Narrative）是人类沟通中最基本、最核心的模式之一，但在构建当前主流的大语言模型（LLM）时，其预训练语料库的叙事构成特征却长期处于未被充分探索的“黑盒”状态。

现有的大模型预训练数据通常以“网络规模”（Web-scale）为特征，包含数万亿个 token 的异构文本。然而，大多数数据清洗和筛选工作主要关注语言质量、毒性过滤或重复度去除，往往忽略了文本中深层的叙事结构。这种缺失导致我们难以理解模型是如何从杂乱无章的网络文本中学习逻辑、因果和故事结构的，也难以评估不同数据源对模型叙事推理能力的具体贡献。

为了解决这一空白，研究人员对开源预训练语料库 Dolma（包含 3 万亿 token）进行了首次细粒度的叙事特征研究，旨在量化并理解网络文本中的叙事分布规律。

核心内容

本研究提出了一套系统的框架，用于量化和表征网络规模数据中的叙事内容。研究团队并没有简单地标记文本是否包含故事，而是借鉴叙事理论，构建了一个涵盖三个核心叙事要素（主体 Agency、背景 Setting、事件 Events）的分析框架，并将这些要素细化为 11 个可解释的维度。

1. 方法论与数据标注

为了验证该框架的有效性，研究人员从 Dolma 语料库中采样并人工标注了 400 个多样化的文本片段。基于这些标注数据，他们微调并验证了一个名为 NarraBERT 的模型。NarraBERT 基于 RoBERTa 架构，专门用于进行细粒度的叙事预测任务。

2. 大规模应用与数据集发布

在验证了 NarraBERT 的有效性后，研究团队将其应用于 300 万个文本片段。这一过程生成了一个全新的数据集 NarraDolma，其中包含了每个片段在 11 个叙事维度上的详细标注。目前，NarraDolma 数据集和 NarraBERT 模型均已公开，供社区使用。

3. 主要发现

通过对 NarraDolma 的大规模分析，研究揭示了以下关键现象：

叙事结构的可测量性：即使在极度异构、杂乱的网络数据中，叙事结构依然是可测量且稳定的。这证明了即使在非虚构或碎片化的网络文本中，叙事元素也广泛存在。
连续的多元维度结构：网络文本并非简单的“有故事”或“无故事”二元分类，而是存在一个连续的、多维度的叙事结构。这意味着叙事强度、复杂度和类型在数据中呈现为一种光谱分布。
分布的不均衡性：叙事质量在不同预训练来源（如新闻网站、论坛、博客）和不同主题之间分布极不均匀。更重要的是，当前的数据策展（Curation）实践既没有测量这种分布，也没有在数据筛选过程中加以考虑。

关键要点

首个细粒度研究：这是针对 Dolma 这一 3 万亿 token 开源语料库进行的关于叙事特征的首次细粒度研究，填补了该领域的空白。
11 维叙事框架：研究建立了基于“主体、背景、事件”三大要素的 11 个可解释维度，为量化叙事提供了标准化指标。
NarraBERT 模型：开发并开源了一个基于 RoBERTa 的专用模型，能够高效预测文本片段中的细粒度叙事特征。
NarraDolma 数据集：发布了包含 300 万个标注片段的新数据集，为后续研究提供了宝贵的资源。
数据策展的盲区：揭示了当前大模型预训练数据筛选流程中忽视叙事分布不均的问题，指出现有方法未能有效捕捉数据中的叙事价值差异。
开源贡献：NarraDolma 数据集和 NarraBERT 模型代码均已公开，促进了社区对预训练数据构成的进一步研究。

意义与影响

这项研究对大语言模型的开发和数据科学领域具有深远的影响：

深化对预训练数据的理解：它提供了一个新的视角，让我们能够量化分析预训练数据中“故事性”和“逻辑性”的分布。这对于理解模型如何从海量噪声中提取有用知识至关重要。
优化数据策展策略：研究指出当前的数据筛选忽略了叙事维度的不均衡性。未来的数据工程可以借鉴此框架，有针对性地平衡不同来源、不同叙事类型的比例，从而可能提升模型在复杂推理任务上的表现。
推动叙事推理任务的研究：通过 NarraDolma 数据集，研究人员可以更深入地探究数据组成如何影响模型在叙事推理、因果推断等任务上的能力，为提升模型的逻辑一致性提供数据支持。
促进可解释性研究：将抽象的“叙事”拆解为 11 个可解释维度，使得原本黑盒的数据预处理过程变得更加透明和可控，有助于构建更透明、更可控的大模型训练管线。

总之，这项工作不仅发布了一个有价值的数据集和工具，更提出了一种新的数据分析范式，提醒业界在追求数据规模的同时，必须重视数据内容的深层结构特征。

查看原文 →arxiv.org