技术博客arXiv cs.CL·7 小时前

跨语言迁移研究：模型提升源于任务对齐而非语言亲缘

原标题：Disentangling Linguistic Relatedness from Task Alignment in Cross-Lingual Transfer

速览

研究对七款大语言模型进行阿拉伯语微调，并评估其在闪米特语及非闪米特控制组上的零样本阅读理解能力。结果发现，无论模型架构如何，均无证据支持存在特定于闪米特语言的迁移优势。思维链消融实验进一步证实，微调带来的收益与推理时推理的收益一致，表明两者均旨在解决任务格式对齐问题，而非实现跨语言知识迁移。

AI 深度解读

解耦语言亲缘性与任务对齐：跨语言迁移中的新发现

背景

在多语言大语言模型（LLM）的研究中，一个长期存在的假设是：如果模型在源语言（如英语）上经过微调，那么它在语言谱系上相近的目标语言（如其他印欧语系语言）上的表现通常会优于语言谱系上相距较远的语言。这种基于“语言亲缘性”（Linguistic Relatedness）的直觉认为，共享的语法结构、词汇或句法特征使得知识更容易在相似语言间迁移。

然而，随着参数规模达到数十亿甚至数千亿级别，这种传统假设是否依然成立？特别是在处理非印欧语系语言（如阿拉伯语、希伯来语等闪含语系语言）时，模型究竟是利用了语言间的深层结构相似性，还是仅仅学会了如何更好地执行特定任务格式？

本文发表于 arXiv（cs.CL 领域，提交于 2026 年 4 月 26 日），题为《Disentangling Linguistic Relatedness from Task Alignment in Cross-Lingual Transfer》（解耦跨语言迁移中的语言亲缘性与任务对齐）。研究团队通过大规模实验，试图厘清在跨语言迁移过程中，模型性能的提升究竟源于语言本身的相似性，还是源于对任务格式的对齐。

核心内容

本研究的核心在于通过控制变量法，系统地评估大型语言模型在跨语言迁移中的真实能力。研究团队选取了七款参数规模在 4B 至 671B 之间的大型语言模型，涵盖了稠密架构（Dense）和混合专家架构（Mixture-of-Experts, MoE）两种主流设计。

实验设计：

微调阶段：所有模型均在阿拉伯语（Arabic）数据上进行微调。阿拉伯语属于闪含语系（Afroasiatic），与英语（印欧语系）差异巨大，但与同属闪含语系的希伯来语等语言具有亲缘关系。
评估阶段：在零样本（Zero-shot）设置下，评估模型在阅读理解任务上的表现。测试语言包括：
- 亲缘语言：其他闪含语系语言（如希伯来语）。
- 控制语言：非闪含语系语言（如英语、法语等），用于对比基线表现。

主要发现： 研究结果挑战了传统的语言亲缘性假设。数据显示，不存在显著的“闪含语系特异性迁移”（Semitic-specific transfer）。具体表现为：

基线弱的模型：那些在阿拉伯语上基线表现较差的模型，在所有测试语言（无论是亲缘还是非亲缘）上都出现了大幅度的性能提升。
基线强的模型：那些基线表现已经很好的模型，无论测试语言属于哪个语系，其性能提升都非常有限，且没有显示出对闪含语系语言的额外偏好。

这一现象表明，跨语言迁移的效果主要取决于模型对任务格式对齐（Task-format alignment）的掌握程度，而非语言间的谱系相似性。

思维链（Chain-of-Thought, CoT）消融实验： 为了进一步验证上述结论，研究团队引入了思维链推理作为消融实验。结果显示：

那些从阿拉伯语微调中获益最多的模型，同样在推理时采用思维链策略获益最多。
微调（Fine-tuning）和推理时的思维链推理（Inference-time reasoning）这两种机制，似乎都在解决同一个问题：任务格式的对齐。
换句话说，模型并没有通过微调“记住”了阿拉伯语特有的语言学知识从而更好地理解希伯来语，而是学会了如何更好地遵循指令、解析问题结构并生成符合格式要求的回答。这种能力的提升是通用的，不依赖于目标语言与源语言的语言学距离。

关键要点

语言亲缘性假设失效：在 4B-671B 参数规模的模型中，未发现语言谱系相近（如阿拉伯语与希伯来语）能带来显著的额外迁移优势。
任务对齐优于语言相似：模型性能的提升主要源于对任务格式（Task Format）的对齐，而非跨语言知识的直接转移。
基线依赖性：
- 低基线模型：在所有语言上均能从微调中大幅获益，证明其之前主要受限于任务理解而非语言能力。
- 高基线模型：性能提升边际效应明显，且不受语言家族影响。
微调与推理机制的同构性：微调带来的增益与推理时引入思维链（CoT）带来的增益高度相关，暗示两者本质上都是在优化模型对任务指令的遵循能力。
架构无关性：无论是稠密模型还是混合专家模型（MoE），均观察到了相同的趋势，说明这一发现具有架构鲁棒性。

意义与影响

这项研究对多语言大模型的开发和应用具有深远的影响：

数据策略优化：对于开发者而言，如果目标是提升模型在特定语言上的阅读理解能力，重点应放在任务格式的对齐和指令遵循能力的训练上，而非仅仅依赖寻找与目标语言亲缘性高的源语言数据进行微调。这意味着，使用高质量、格式规范的英语或多语言指令数据微调，可能比专门寻找阿拉伯语-希伯来语平行语料更有效。
重新评估多语言能力：研究提示我们，当前大模型在多语言任务上的表现，可能更多反映的是其通用的推理和指令跟随能力，而非深层的语言学知识迁移。这要求我们在评估多语言模型时，需更加细致地拆解“语言能力”与“任务能力”。
资源分配建议：在低资源语言场景中，如果基线性能较差，通过微调提升任务对齐能力可能带来显著回报；但如果基线已经较好，单纯增加与源语言亲缘性高的数据可能收效甚微，应转向更复杂的推理增强策略（如思维链）。
理论修正：该研究为跨语言迁移理论提供了重要的实证修正，表明在超大参数规模下，语言间的结构相似性对模型性能的影响可能被高估，而任务层面的通用对齐机制占据了主导地位。

总之，这项研究揭示了一个反直觉但至关重要的事实：在当前的 LLM 范式下，“如何回答问题”比“回答哪种语言的问题”更关键。

查看原文 →arxiv.org