技术博客arXiv cs.CL·3 小时前

Riazi-8B：专为乌尔都语数学推理优化的大语言模型

原标题：Riazi-8B: An Urdu Large Language Model for Mathematical Reasoning

速览

现有大语言模型的数学推理能力高度依赖英语资源，导致乌尔都语等低资源语言表现不佳。为此，研究团队开发了Riazi-8B模型，该模型通过在乌尔都语维基百科上继续预训练，并在基于GSM8K的乌尔都语思维链数据上进行监督微调来实现适配。实验表明，Riazi-8B在答案正确性、推理质量和生成完整性上均优于现有模型。这一成果证明了结合语言适配与推理微调是扩展低资源语言数学推理能力的有效策略。

AI 深度解读

Riazi-8B：面向数学推理的乌尔都语大语言模型深度解读

背景

尽管近期的大语言模型（LLMs）在数学推理能力上展现出了显著优势，但这一进步主要依赖于以英语为中心的训练资源和基准测试。这种资源分布的不均衡导致了一个严峻的问题：在乌尔都语等低资源语言中，模型的推理性能出现大幅退化。

目前，乌尔都语领域面临双重缺失：既缺乏面向推理的数据集，也缺少经过适配的模型。现有的最新进展难以惠及乌尔都语用户，特别是在需要多步数学问题解决能力的场景中。这种“英语中心主义”不仅限制了技术普惠性，也阻碍了非英语母语用户在复杂逻辑任务中的体验。

核心内容

为了解决上述差距，研究团队提出了 Riazi-8B，这是一个专门针对乌尔都语数学推理优化的大语言模型。该模型的开发采用了一种两步走的适应策略，旨在填补低资源语言在推理能力上的空白。

1. 模型构建流程

Riazi-8B 的开发过程包含两个关键阶段：

持续预训练（Continued Pre-training）：模型首先在乌尔都语维基百科（Urdu Wikipedia）数据上进行持续预训练，以增强其对乌尔都语语言结构和文化背景的理解能力。
监督微调（Supervised Fine-tuning, SFT）：在语言基础夯实后，团队使用源自 GSM8K（Grade School Math 8K，一个著名的数学推理数据集）的乌尔都语思维链（Chain-of-Thought, CoT）数据进行监督微调。这一步骤专门针对多步数学问题的解决逻辑进行了强化。

2. 评估与结果

研究团队在 MGSM-Urdu（Multi-lingual Grade School Math in Urdu，乌尔都语版多语言小学数学题数据集）上对 Riazi-8B 进行了全面评估，并将其与现有的乌尔都语指令微调模型进行了对比。

评估结果显示，Riazi-8B 在以下四个维度均取得了显著提升：

答案正确性（Answer Correctness）：最终数学结果的准确性更高。
推理质量（Reasoning Quality）：解题逻辑更加清晰、严谨。
回答完整性（Response Completeness）：提供的解释和步骤更加详尽。
乌尔都语生成能力（Urdu Generation）：语言生成的自然度和流畅度更佳。

关键要点

填补低资源语言空白：Riazi-8B 是首个专门针对乌尔都语数学推理优化的模型，解决了该语言在推理导向数据集和适配模型上的稀缺问题。
两步适应策略有效：通过“乌尔都语维基百科持续预训练”+“GSM8K 衍生思维链数据监督微调”的组合策略，成功将英语主导的数学推理能力迁移至乌尔都语。
思维链（CoT）的关键作用：利用源自 GSM8K 的乌尔都语思维链数据进行微调，证明了引入显式推理步骤对于提升低资源语言模型的多步问题解决能力至关重要。
全面性能提升：在 MGSM-Urdu 基准测试中，Riazi-8B 不仅在最终答案上优于现有模型，在推理逻辑质量和语言生成流畅度上也表现出一致性改进。
策略的可推广性：研究结论表明，将语言适配与推理导向的微调相结合，是将数学推理能力扩展到其他低资源语言的有效范式。

意义与影响

Riazi-8B 的发布具有重要的学术和社会意义。首先，它挑战了当前大模型发展过度依赖英语资源的现状，证明了通过针对性的数据适配，非英语语言同样可以拥有强大的逻辑推理能力。

其次，这项研究为低资源语言的大模型开发提供了一条可复制的技术路径：即利用高质量的多语言基础语料（如维基百科）进行语言建模，再结合经过翻译或生成的思维链数据进行推理微调。这不仅有助于提升乌尔都语用户的教育和技术体验，也为其他缺乏推理数据的语言（如斯瓦希里语、孟加拉语等）的大模型优化提供了宝贵的参考案例。

最后，从技术伦理和包容性角度看，Riazi-8B 有助于缩小数字鸿沟，确保乌尔都语使用者能够平等地享受人工智能在教育和复杂问题解决领域带来的红利。

查看原文 →arxiv.org