← 返回信息流
技术博客arXiv cs.CL·2 小时前

TUDUM:专为Qwen3.5-27B打造的土耳其思考推理流水线

原标题:TUDUM: A Turkish-Thinking Reasoning Pipeline for Qwen3.5-27B

速览

TUDUM(Turkish-Thinking Reasoning Pipeline)是一个为Qwen3.5-27B模型量身打造的土耳其思考推理优化流水线。核心在于让模型的推理过程本身用土耳其语完成,而非仅翻译最终答案。 研究从Unsloth官方基座模型出发,通过15,991个土耳其推理样本的LoRA监督微调,再结合GRPO族强化学习在代理过滤的土耳其数学环境上训练。 结果显示SFT使推理更短更一致但准确率下降,RL部分恢复了数学表现,尤其在AIME24上表现突出,但整体未超越基底模型。 该项目强调技术诚实,提供开源Step-50模型,旨在为多语言推理提供实用参考框架。

AI 深度解读

TUDUM: A Turkish-Thinking Reasoning Pipeline for Qwen3.5-27B

背景

大语言模型在多语言推理能力上仍存在显著挑战。许多模型在处理土耳其语提示时,会将提示语翻译为英语中心化的内部或可见 scratchpad,然后在英语环境中完成大部分推理,仅在最后将答案本地化回土耳其语。这种“混合语言推理”现象导致推理轨迹不纯、长度过长且易于“思考耗尽”(thinking exhaustion)。

Qwen3.5-27B 作为 Qwen 系列的 27B 参数思考模型,在基础能力上已具备良好推理能力,但未针对土耳其语进行过针对性优化。TUDUM 项目旨在构建一个完整的土耳其语思考推理流水线(Türkçe Düşünen Üretken Model),核心目标是让 <think></think> 块的生成行为本身成为可训练的土耳其语行为,从而实现提示完全以土耳其语思考并回答。

核心内容

TUDUM 项目从基础检查点 unsloth/Qwen3.5-27B 开始,采用 LoRA 适配器对 15,991 个土耳其语推理样本进行监督微调(SFT)。在此阶段,模型被训练使 <think></think> 块中的内容直接以土耳其语生成,彻底解决提示-推理-回答的语言混合问题。

随后,TUDUM 应用 GRPO 系列强化学习(GRPO-family reinforcement learning)在代理过滤后的土耳其语数学环境中进行训练。代理环境通过过滤确保仅保留高质量的土耳其语数学问题,强化学习目标是优化数学推理性能。

实验结果呈现混合效果:

  • SFT 阶段显著改善了土耳其语推理行为:模型响应更短、思考轨迹更一致土耳其语,平均响应长度大幅下降,思考耗尽现象明显减少。
  • 但同时带来了基准准确率的较大下降。
  • RL 阶段恢复了部分数学性能,尤其在 AIME24 基准上取得了最佳早期检查点的表现。
  • 然而,RL 并未在所有基准上实现统一提升,也未能超过基线模型在报告的 Macro-6 平均准确率上的表现。

TUDUM 项目最终贡献的不是宣称达到最先进土耳其语推理能力的成果,而是提供了一个在技术上诚实的土耳其语思考推理流水线及完整评估方案。项目已公开释放 step-50 模型。

关键要点

  • TUDUM 的核心创新在于将 <think></think> 块视为可训练的行为,而非仅将提示翻译后用英语思考。
  • 流水线包含两个主要阶段:LoRA SFT(15,991 个土耳其语推理样本)与 GRPO 强化学习(代理过滤的土耳其语数学环境)。
  • SFT 使模型响应更短、思考更土耳其语,但导致基准准确率下降。
  • RL 阶段恢复了数学性能(尤其是 AIME24),但未能全面超越基线模型的 Macro-6 平均。
  • 项目未宣称 SOTA,而是提供“技术上诚实的土耳其语思考推理流水线与评估方案”。
  • 公开模型:step-50 版本可通过 Hugging Face 等渠道获取。

意义与影响

TUDUM 为低资源语言(如土耳其语)提供了一套实用的多语言思考模型适配范式,证明了“纯土耳其语思考”不仅是理论上的必要性,也是可通过 LoRA + GRPO 有效实现的工程路径。尽管最终性能未超越基线,但混合结果清晰揭示了当前多语言模型在推理轨迹纯度和资源利用上的痛点,并为后续研究者提供了可复现的实验框架与公开模型。

该工作强调了“技术诚实”的态度:在多语言场景中,单纯追求基准分数而不解决语言混合问题往往是无效的。TUDUM 因此成为低资源语言思考能力优化的一个参考案例,期待更多类似项目通过公开评估进一步推动多语言大模型的健康发展。

查看原文 →arxiv.org