技术博客arXiv cs.CL·1 天前

发布72亿参数历史语言模型TypewriterLM

原标题：Pretraining Language Models on Historical Text

速览

研究团队推出72亿参数的历史语言模型TypewriterLM，该模型仅在1913年之前的英文文本上训练。为解决数据质量和时间泄露问题，构建了540亿token的TypewriterCorpus语料库，并设计了基于历史源文档约束的指令微调框架。同时发布了History-Event基准套件，用于评估模型的历史能力、时间一致性及数据泄露情况。

AI 深度解读

在历史文本上预训练语言模型：TypewriterLM 深度解读

背景

随着大型语言模型（LLMs）在自然语言处理领域的统治地位日益巩固，其训练数据的时间分布成为了一个日益突出的问题。大多数主流模型（如 GPT-4、Llama 等）主要基于互联网上最新的网页、书籍和文章进行训练，这导致它们在处理 2010 年代以后的当代数据时表现优异，但在面对 19 世纪或更早的历史文献时，往往会出现“时代错位”（anachronism）。

这种“时间泄漏”不仅影响了模型对历史语境的理解能力，还可能导致幻觉，即模型用现代的词汇、概念或价值观去解释或重构历史事件。对于历史学家、数字人文研究者以及需要高精度历史事实核查的应用场景而言，缺乏专门针对历史语料优化的语言模型是一个显著的技术瓶颈。

此外，构建历史语言模型面临着独特的挑战：历史文本的数字化质量参差不齐、存在大量的 OCR（光学字符识别）错误、语言风格随时间演变剧烈，以及如何在预训练和微调阶段严格防止现代数据污染历史模型。

在此背景下，来自相关研究机构的研究人员提出了 TypewriterLM，这是一个专门针对历史英语文本进行预训练的语言模型，旨在解决上述数据质量、时间泄漏及评估难题。

核心内容

本文介绍了一种名为 TypewriterLM 的 72.4 亿参数（7.24B）历史语言模型。该模型完全基于 1913 年之前出版的英语文本进行训练。为了开发这一模型，研究团队系统地解决了历史语言模型开发中的四大核心挑战：数据质量与可用性、防止时间泄漏、设计时间一致性的后训练流程，以及构建可靠的评估体系。

1. 构建 TypewriterCorpus：高质量历史语料库

为了克服历史数据稀缺和噪声大的问题，研究团队构建了 TypewriterCorpus。这是一个包含 540 亿 token 的历史语料库。

数据来源：语料库收集自多样化的档案馆和经过语言学标注的来源，确保了数据的代表性和多样性。
数据清洗：团队实施了广泛的数据清洗程序，以纠正历史文档中常见的 OCR 错误、格式混乱和噪声。
泄漏缓解：特别设计了严格的泄漏缓解程序，确保训练数据中不包含任何 1913 年之后的信息，从而保证模型的“时间封闭性”。

2. 词汇 grounded 指令微调框架

传统的指令微调（Instruction Tuning）往往依赖现代数据，容易导致模型在回答历史问题时引入现代偏见。为此，研究团队引入了 lexically grounded instructing tuning（词汇 grounded 指令微调）框架。

核心机制：该框架约束模型的响应必须直接 grounded（扎根/依据）于历史源文档。这意味着模型在生成答案时，不能仅依靠内部参数化的通用知识，而必须引用或紧密贴合给定的历史文本证据。
数据集构建：基于此框架，研究团队构建了两个历史指令微调数据集：
- History-LIMA：基于 LIMA 方法构建的高质量历史指令数据集。
- History-SelfInstruct：通过自指令生成方法构建的大规模历史指令数据集。

3. History-Event：时间一致性评估基准

为了全面评估历史语言模型的能力，特别是其时间感知能力和防止数据泄漏的能力，研究团队引入了 History-Event。

评估维度：该基准套件旨在评估模型的三项关键能力：
1. 能力（Competence）：模型在历史任务上的基本表现。
2. 时间接地性（Temporal Grounding）：模型是否能正确识别事件发生的时间顺序，避免时代错位。
3. 数据泄漏（Data Leakage）：检测模型是否意外记住了 1913 年之后的信息，并错误地将其应用于历史语境中。

4. 开源与资源发布

研究团队发布了 TypewriterLM 模型及其所有相关资源（包括 TypewriterCorpus、History-LIMA、History-SelfInstruct 和 History-Event 基准），以支持未来关于历史语言模型的研究。

关键要点

模型规格：TypewriterLM 是一个 7.24B 参数的大型语言模型，专为处理 1913 年之前的英语历史文本而设计。
语料库规模：构建了包含 540 亿 token 的 TypewriterCorpus，经过严格清洗和泄漏缓解处理，源自多样化档案和语言学标注来源。
技术创新：提出了“词汇 grounded 指令微调”框架，强制模型响应直接基于历史源文档，减少幻觉和现代偏见。
微调数据集：开发了两个专用的历史指令微调数据集：History-LIMA 和 History-SelfInstruct。
评估体系：推出了 History-Event 基准套件，专门用于评估模型的历史能力、时间接地性和数据泄漏情况。
开源承诺：模型、语料库、微调数据集及评估基准均已开源，旨在推动历史 NLP 领域的研究。

意义与影响

TypewriterLM 的发布标志着语言模型在垂直领域专业化方面迈出了重要一步，其意义主要体现在以下几个方面：

解决“时代错位”问题：主流大模型在处理历史问题时，常因训练数据包含大量现代信息而产生幻觉（例如，用现代政治术语解释中世纪事件）。TypewriterLM 通过严格的时间截断（1913 年前），从源头上减少了这种风险，为历史研究提供了更“原汁原味”的语言工具。
提升历史研究的准确性：通过“词汇 grounded 指令微调”，模型被约束在历史证据范围内回答，这极大地提高了历史问答的可信度，有助于学者进行更严谨的史料分析和引用。
建立历史 NLP 评估标准：History-Event 基准的提出，填补了历史语言模型评估领域的空白。它提供了一个标准化的方法来量化模型的时间感知能力和数据泄漏程度，为后续研究提供了可比较的基准。
促进数字人文发展：开源 TypewriterCorpus 和相关工具包，降低了研究人员构建和训练历史语言模型的门槛，有助于加速数字人文（Digital Humanities）领域的发展，使更多学者能够利用 AI 技术挖掘历史文献的价值。

总之，TypewriterLM 不仅是一个技术产品，更是一个方法论上的创新，它展示了如何通过严格的数据治理和专门的训练框架，构建出具有特定时间属性的高可靠性语言模型。

查看原文 →arxiv.org