技术博客arXiv cs.CL·2 小时前

DistilledGemma：平衡效率与精度的多语种历史人物地点关系抽取

原标题：DistilledGemma: Balanced Efficiency-Accuracy for Person-Place Relation Extraction from Multilingual Historical Articles

速览

DistilledGemma是为HIPE-2026任务设计的高效多语种历史文章人物地点关系抽取系统。该方法采用三阶段知识蒸馏流程，从大型语言模型探索提示工程，到利用Gemma 4 26B教师模型生成思维链，最终蒸馏至2.3B学生模型。在官方评估中，该模型在标准测试集和二进制测试集上分别获得第三和第二名，证明了知识蒸馏在历史文档处理中的实用性与可扩展性。

AI 深度解读

DistilledGemma：在历史文献多语言实体关系抽取中平衡效率与精度

背景

历史文献处理是自然语言处理（NLP）领域的一个长期挑战，其难点在于文本往往包含非标准语言、古旧表达以及复杂的句法结构。特别是在跨语言场景下，如何从多语种的历史报纸文章中准确提取“人物-地点”（Person-Place）关系，不仅对数字人文研究至关重要，也是衡量模型泛化能力和推理能力的重要基准。

HIPE（Historical Newspapers and Periodicals Evaluation）系列评测任务旨在推动这一领域的发展。HIPE-2026 共享任务特别关注从英语、德语和法语的多语种历史报纸文章中抽取人物与地点之间的关系。传统的深度学习模型虽然在这一任务上取得了一定进展，但往往面临计算资源消耗巨大或推理速度慢的问题。如何在保证高精度的同时，显著降低模型的计算成本和部署规模，成为工业界和学术界共同关注的痛点。

核心内容

本文介绍了 DistilledGemma 系统，这是一个专为 HIPE-2026 共享任务设计的高效且准确的关系抽取系统。该系统由 WHEREAMI 团队开发，旨在解决多语种历史文本中人物-地点关系抽取的难题。其核心创新在于采用了一种三阶段的知识蒸馏（Knowledge Distillation）流水线，旨在在分类准确率与计算效率之间取得最佳平衡。

第一阶段：提示工程与推理架构探索

在初始阶段，研究团队在八种大型语言模型（LLM）上系统地探索了提示工程（Prompt Engineering）策略。这一阶段的目标是识别出最适合该复杂任务的推理架构。通过对比不同模型在零样本或少样本设置下的表现，团队确定了能够最好地处理多语种历史文本语义和句法特征的推理模式。

第二阶段：基于 QLoRA 的监督微调（SFT）

在确定推理架构后，团队利用 Gemma 4 26B A4B 作为教师模型（Teacher Model）。该模型具备强大的多语言能力。研究团队通过 QLORA（Quantized Low-Rank Adaptation，量化低秩自适应）技术对该教师模型进行了监督微调（SFT）。在此阶段，教师模型被用来生成“银标准”（silver-standard）的思维链（Chain-of-Thought, CoT）轨迹。这些轨迹涵盖了整个训练语料库，包含了模型在推理过程中如何一步步分析文本、识别实体并确定关系的详细逻辑路径。这一步骤旨在将人类专家级别的推理过程“注入”到模型中。

第三阶段：响应级知识蒸馏

在最终阶段，团队执行了响应级蒸馏（Response-level Distillation），将教师模型中学到的推理模式转移到紧凑的 Gemma 4 E2B 学生模型（Student Model）中。

模型规模差异：教师模型参数量约为 26B，而学生模型仅为 2.3B 有效参数。
部署优化：为了在推理时进一步降低开销，训练期间使用的 LoRA 适配器被合并到学生模型中。这意味着在部署阶段，不需要单独加载适配器，从而简化了推理流程并提高了速度。

评估结果

在官方评估中，WHEREAMI 团队取得了以下成绩：

标准测试集（Standard Test Set）：排名 第 3 位，准确率配置文件平均得分为 0.688。
二元测试集（Binary Test Set）：排名 第 2 位，平均得分为 0.8156。
效率-精度平衡排名：在标准测试集和二元测试集的效率-精度平衡配置中，该团队均排名 第 2 位。

这一结果证明，通过将知识从 26B 的教师模型蒸馏到 2.3B 的学生模型，团队在保持强大推理能力的同时，将部署模型的规模减少了约 90%，实现了极具竞争力的性能，且未产生过高的计算成本。

关键要点

三阶段蒸馏流水线：DistilledGemma 的核心方法论包括：(1) 多模型提示工程探索以确定最佳推理架构；(2) 使用 QLORA 微调大型多语种教师模型以生成思维链数据；(3) 将推理模式蒸馏至小型学生模型。
模型架构选择：
- 教师模型：Gemma 4 26B A4B，利用其强大的多语言理解和生成能力。
- 学生模型：Gemma 4 E2B，参数量约为 2.3B，旨在实现高效部署。
技术细节：
- 使用 QLoRA 进行参数高效微调。
- 生成 银标准思维链（CoT） 作为蒸馏目标，不仅传递答案，还传递推理逻辑。
- 推理时将 LoRA 适配器合并 到学生模型权重中，优化推理性能。
任务范围：针对英语、德语和法语三种语言的历史报纸文章，抽取人物与地点之间的关系。
性能表现：
- 在 HIPE-2026 标准测试集上准确率均值 0.688（第 3 名）。
- 在二元测试集上准确率均值 0.8156（第 2 名）。
- 在效率与精度的综合平衡指标上位列第 2。
核心优势：证明了知识蒸馏是处理历史文档的一种实用且可扩展的解决方案，能够在大幅降低计算成本（从 26B 降至 2.3B）的同时，保持接近大型模型的推理能力。

意义与影响

DistilledGemma 的工作为历史文献的数字化处理提供了一个极具参考价值的范式。其意义主要体现在以下几个方面：

小模型大作为：研究证实，通过高质量的知识蒸馏，小型模型（如 2.3B 参数）可以在特定领域任务（如多语种历史文本关系抽取）中逼近甚至媲美大型模型的性能。这对于资源受限的环境（如边缘计算设备或低成本云服务）具有重要意义。
思维链蒸馏的有效性：该方法不仅蒸馏了最终的关系标签，还蒸馏了模型的推理过程（CoT）。这表明在复杂任务中，传递“如何思考”比仅传递“正确答案”更能保留模型的泛化能力和鲁棒性。
多语言处理的可行性：在处理英语、德语和法语混合的历史文本时，DistilledGemma 展现了良好的跨语言泛化能力。这对于全球范围内的数字人文项目至关重要，因为许多历史档案并非单一语言。
工业界落地潜力：通过合并 LoRA 适配器并减小模型体积，DistilledGemma 降低了部署门槛。这使得高精度的 NLP 服务可以更广泛地应用于图书馆、档案馆等机构的实际系统中，而无需依赖昂贵的 GPU 集群。

总之，DistilledGemma 展示了如何通过巧妙的方法论设计，在计算效率与模型智能之间找到最佳平衡点，为后续的历史文本分析及类似领域的 NLP 任务提供了重要的技术借鉴。

查看原文 →arxiv.org