技术博客arXiv cs.CL·4 小时前

利用多语言微调提升金融因果问答性能

原标题：Causal Connections: Leveraging Multilingual Fine-Tuning for Financial QA@FinCausal 2026

速览

本文介绍了HSA_CORAL团队在FinCausal 2026共享任务中的参赛方案，旨在通过抽取式问答从金融文本中提取因果关系。研究对比了多语言BERT、BART及Llama 3.1等模型，发现监督微调效果最佳。其基于GPT-4.1 Mini的多语言微调系统在英语子任务中并列第一，展现了多语言微调在跨语言金融因果问答中的价值。

AI 深度解读

Causal Connections：利用多语言微调提升金融问答因果推理能力

背景

在金融文本分析领域，从非结构化的叙事性文本（如新闻、财报、研报）中提取因果关系是一项极具挑战性的任务。理解“谁导致了什么”对于风险评估、市场预测和投资决策至关重要。然而，现有的自然语言处理模型在处理这一特定任务时，往往面临跨语言迁移能力弱、领域适应性差的问题。

FinCausal 2026 共享任务旨在推动这一领域的发展，要求参赛系统能够从英文和西班牙文的金融叙述中提取因果关系，并通过抽取式问答（Extractive Question Answering）的形式输出结果。该任务不仅考察模型在单一语言上的表现，更关注其在多语言环境下的泛化能力和因果推理的准确性。

核心内容

本文介绍了 HSA_CORAL 团队在 FinCausal 2026 共享任务中的参赛方案。该方案的核心目标是通过抽取式问答技术，从英文和西班牙文的金融文本中提取因果关系。团队对比了三类不同的建模架构，并深入探讨了提示工程（Prompting）、少样本学习（Few-shot Learning）和监督微调（Supervised Fine-Tuning, SFT）对模型性能的影响。

1. 建模家族对比

团队评估了三种主要的模型架构：

仅编码器（Encoder-only）标记模型：使用多语言 BERT（Multilingual BERT）进行 token 标记（token tagging）。这类模型擅长理解上下文，但在生成复杂因果链条时可能受限。
编码器-解码器（Encoder-decoder）生成模型：使用多语言 BART（Multilingual BART）。这类模型在文本生成任务中表现良好，能够处理输入输出长度不一致的情况。
仅解码器（Decoder-only）大语言模型（LLMs）：包括 Llama 3.1 以及 GPT 系列变体。这类模型具有强大的生成能力和上下文理解力，团队在此类模型上应用了提示优化、少样本演示以及监督微调策略。

2. 训练与优化策略

研究重点在于不同优化策略的效果对比：

提示工程与少样本学习：通过精心设计的提示词和提供少量示例（few-shot demonstrations），模型能够在无需大量标注数据的情况下达到具有竞争力的性能。
监督微调（SFT）：在特定任务数据上进行微调被证明能带来最大的性能提升。特别是将英文和西班牙文训练数据混合进行微调，显著增强了模型的跨语言迁移能力。

3. 最佳系统表现

团队的最佳系统采用了 GPT-4.1 Mini 模型，并在合并的英文和西班牙文训练数据上进行了监督微调。在共享任务指定的 “LLM-as-a-judge”（以大模型作为裁判）评估指标下，该系统取得了以下成绩：

英文子任务：与最高分并列第一，得分为 4.8140。
西班牙文子任务：排名第三，得分为 4.7753。

这一结果表明，针对特定任务进行适配，并结合多语言数据进行微调，是提升金融领域因果问答性能的关键路径。

关键要点

多语言微调的价值：将英文和西班牙文数据混合进行监督微调，显著提升了模型在两种语言上的表现，证明了多语言数据在跨语言因果推理中的迁移价值。
微调优于提示工程：虽然提示工程和少样本学习能提供基线性能，但监督微调（SFT）带来了最大的性能增益，特别是在处理复杂的金融因果逻辑时。
LLM 的主导地位：在对比实验中，仅解码器的大语言模型（如 GPT-4.1 Mini 和 Llama 3.1）在结合微调后，表现优于传统的 BERT 和 BART 模型。
跨语言一致性：最佳系统在英文任务上达到顶尖水平，在西班牙文任务上也保持高位排名，显示了模型良好的跨语言泛化能力。
评估方法：任务采用 “LLM-as-a-judge” 机制进行评分，这反映了当前 NLP 评估中利用大模型进行自动化、语义级评估的趋势。

意义与影响

这项研究对金融自然语言处理领域具有多重意义：

推动金融因果推理标准化：通过 FinCausal 等共享任务，社区正在建立更统一的基准来评估模型在金融因果提取方面的能力，有助于衡量技术进步。
验证多语言策略的有效性：研究结果证实，对于全球性金融市场，构建支持多语言（如英语和西班牙语）的因果推理模型是必要且可行的。混合语言微调是一种高效的数据利用策略。
为大模型落地金融场景提供范式：研究表明，通用大语言模型（如 GPT 系列）经过特定领域的监督微调后，能够胜任高度专业的金融文本分析任务。这为金融机构利用现有 LLM 基础设施开发定制化应用提供了实证支持。
降低数据依赖：虽然微调效果最好，但提示工程和少样本学习也能达到竞争性水平，这为数据标注成本高昂的场景提供了可行的替代方案，特别是在低资源语言或特定细分领域。

总体而言，HSA_CORAL 团队的工作展示了如何利用最新的大语言模型技术和多语言策略，解决金融文本中复杂的因果推理问题，为未来的金融智能分析系统奠定了重要基础。

查看原文 →arxiv.org