← 返回信息流
技术博客arXiv cs.AI·14 小时前

结合LoRA与NEFTune微调DeepSeek-R1-8B提升金融实体识别

原标题:Instruction Finetuning DeepSeek-R1-8B Model Using LoRA and NEFTune

速览

该研究针对通用大模型在金融实体识别中易误分类的问题,提出使用DeepSeek-R1-8B结合LoRA和NEFTune进行指令微调。通过在Transformer层插入轻量级LoRA矩阵并在训练中对嵌入向量添加噪声,显著提升了模型的泛化能力。实验显示,该方法在七类金融实体识别上的微F1达到0.912,性能超越Llama3、Qwen3及BERT等基线模型。

AI 深度解读

使用 LoRA 和 NEFTune 对 DeepSeek-R1-8B 进行指令微调:金融命名实体识别的深度解读

背景

在金融领域,将非结构化的财务报告、新闻文本转化为结构化的知识图谱,是信息抽取与知识管理的关键环节。这一过程高度依赖于**金融命名实体识别(Financial Named-Entity Recognition, NER)**技术。然而,尽管通用大语言模型(LLMs)在自然语言处理任务上表现优异,但在处理垂直领域的金融数据时,往往面临两大挑战:一是对特定金融实体的误分类,二是忽视金融文本中特有的领域模式。

为了克服这些局限,研究人员开始探索针对特定领域进行高效微调的方法。近期开源的大语言模型 DeepSeek-R1-8B 因其强大的推理能力受到关注。与此同时,低秩自适应(LoRA, Low-Rank Adaptation) 作为一种高效的参数高效微调(PEFT)技术,以及 NEFTune(Noisy Embedding Fine-Tuning) 这种旨在提升模型泛化能力的正则化技术,为在有限计算资源下优化垂直领域模型提供了新的解决方案。本文旨在探讨如何结合 DeepSeek-R1-8B、LoRA 和 NEFTune,构建一个高性能的金融 NER 系统。

核心内容

本研究的核心在于构建并评估一个基于 DeepSeek-R1-8B 的指令微调框架,专门用于解决金融领域的命名实体识别问题。

1. 数据构建与指令格式化

研究团队构建了一个包含 1693 个样本的标注语料库。为了适配大语言模型的指令微调范式,研究者将语料库中的每一个标注句子都转换为“指令-输入-输出”(Instruction-Input-Output)三元组格式。这种格式化使得模型能够明确理解任务目标,即从给定的金融文本中识别并提取特定的实体类型。

2. 技术组合:LoRA 与 NEFTune

在模型架构层面,研究采用了以下两项关键技术:

  • LoRA (Low-Rank Adaptation):研究者在 Transformer 层的权重中插入了轻量级的 LoRA 矩阵。这种方法允许在不冻结原始模型权重的情况下,仅训练少量参数,从而大幅降低计算成本并防止灾难性遗忘。
  • NEFTune (Noisy Embedding Fine-Tuning):为了进一步提升模型的泛化能力,研究者在训练过程中向嵌入向量(Embedding Vectors)添加均匀噪声。NEFTune 作为一种正则化手段,有助于模型在训练期间学习到更鲁棒的特征表示,减少过拟合风险。

3. 实验结果与基准对比

实验评估了该模型在七类金融实体上的表现,这七类实体包括:Company(公司)Date(日期)Location(地点)Money(金额)Person(人物)Product(产品)Quantity(数量)

  • 基础性能:仅使用 LoRA 对 DeepSeek-R1-8B 进行微调后,模型在七类实体上的 Micro-F1 分数达到了 0.901
  • 增强性能:在 LoRA 的基础上引入 NEFTune 技术后,Micro-F1 分数进一步提升至 0.912

4. 基准模型对比

研究将上述最佳模型与多个主流基线模型进行了对比,包括:

  • Llama3-8B
  • Qwen3-8B
  • Baichuan2-7B
  • T5
  • BERT-Base

实验结果表明,经过 LoRA 和 NEFTune 优化的 DeepSeek-R1-8B 在金融 NER 任务上显著优于上述所有基线模型,证明了该组合策略在垂直领域专用模型微调中的有效性。

关键要点

  • 领域适配必要性:通用大语言模型在处理金融实体识别时存在误分类和忽略领域模式的问题,需要针对性的微调策略。
  • 指令微调范式:将 1693 个标注样本转换为“指令-输入-输出”三元组,是适配 LLM 进行 NER 任务的关键步骤。
  • LoRA 的高效性:通过在 Transformer 层插入轻量级矩阵,LoRA 实现了参数高效的微调,无需重新训练整个模型。
  • NEFTune 的泛化提升:在嵌入层添加均匀噪声的 NEFTune 技术,有效提升了模型在训练过程中的泛化能力,使 Micro-F1 从 0.901 提升至 0.912。
  • SOTA 表现:DeepSeek-R1-8B + LoRA + NEFTune 的组合在七类金融实体识别上取得了 0.912 的 Micro-F1 分数,超越了 Llama3-8B、Qwen3-8B、Baichuan2-7B、T5 和 BERT-Base 等主流基线模型。
  • 实体类型覆盖:模型成功覆盖了金融报告中最关键的七类实体:公司、日期、地点、金额、人物、产品和数量。

意义与影响

这项研究为垂直领域的大语言模型应用提供了重要的实践参考。首先,它证明了即使是中等规模(8B 参数级别)的开源模型,通过结合先进的微调技术(如 LoRA 和 NEFTune),也能在特定任务上超越更复杂的基线模型。这对于算力资源有限的企业和研究机构具有极高的实用价值。

其次,NEFTune 在金融 NER 任务中的成功应用,展示了其在提升模型鲁棒性和泛化能力方面的潜力,未来可推广至其他对数据质量和泛化要求较高的垂直领域。

最后,该研究强调了结构化指令数据在 LLM 微调中的核心作用。通过将非结构化文本转化为明确的指令三元组,模型能够更精准地捕捉领域知识。随着金融数据自动化处理需求的增加,此类高效、高精度的微调方案将成为构建金融知识图谱和智能投研系统的关键基础设施。

查看原文 →arxiv.org