Agent SkillLINUX DO · AI·2026/3/8

自部署小模型翻译横评：TranslateGemma 4B 登顶

原标题：自部署小模型翻译能力横评：12 款 ≤7B 模型 × 5 种语言 × LINUX DO 真实内容，TranslateGemma 4B 登顶

速览

文章基于M4 Mac Mini和Ollama，对12款≤7B参数量的本地小模型进行翻译能力横评，覆盖5种语言及12类论坛真实内容。测试结果显示，Google推出的专项翻译模型TranslateGemma 4B在准确性与流畅度上登顶，尽管速度并非最快，但综合质量最优。

AI 深度解读

自部署小模型翻译能力横评：12 款 ≤7B 模型深度解读

背景

随着大语言模型（LLM）在翻译任务中展现出卓越能力，但云端 API 存在隐私泄露、成本高昂及网络依赖等问题，本地化部署小参数模型（≤7B）成为许多开发者和技术爱好者的替代方案。本次测评由 LINUX DO 社区发起，旨在评估在消费级硬件上自部署小模型的实际翻译能力。

测试环境基于 Apple Silicon Mac Mini（M4 芯片，16 GB 统一内存），利用 Ollama 推理引擎在本地运行。测评覆盖了 12 款主流开源模型，目标语言包括英语、日语、韩语、俄语和德语，测试样本源自 LINUX DO 论坛的真实内容，共计 1980 条翻译数据。这些数据涵盖了从 UI 界面文字、技术公告到社区黑话、闲聊等多种复杂语境，旨在全面检验小模型在真实场景下的鲁棒性。

核心内容

1. 测试环境与模型阵容

测试在 macOS 26.3.1 系统下通过 Ollama 0.17.7 完成，默认使用 Q4_K_M 量化格式。测试模型分为两类：

最新一代模型：包括 Google 的 Gemma 3 系列（1B/4B）、TranslateGemma 4B（专项翻译模型）、阿里最新的 Qwen 3.5 系列（2B/4B，含 thinking 模式）以及腾讯的 HY-MT 1.5（1.8B，专项翻译模型）。
上一代基线模型：包括 Qwen 2.5（3B/7B）、Gemma 2（2B）、Llama 3.2（3B）、Phi 3.5（3.8B）和 Mistral 7B。

注：Llama 4 最小版本参数量远超 7B，故未纳入测试。

2. 测试方法论

数据集构建：从 LINUX DO 论坛采集 33 条样本，覆盖 12 类内容，包括 UI 分类名、标签、界面文字、技术标题、闲聊标题、社区黑话（如“车位”、“薅羊毛”）、正式公告及技术讨论等。
Prompt 设计：采用极简指令 Translate the following Chinese text to {language}. Output ONLY the translation, nothing else.，以强制模型仅输出译文。
评价体系：摒弃传统学术指标，采用高级模型（claude-opus-4-6）模拟人类专家进行多维度评价，维度包括准确性、流畅度、指令遵从度、中文残留率、黑话处理能力及推理速度。

3. 性能表现分析

速度排行

极速梯队：Gemma 3 1B（106.4 tok/s）和 HY-MT 1.5（76.7 tok/s）速度最快，但前者质量较差。
均衡梯队：TranslateGemma 4B（42.2 tok/s）和 Gemma 3 4B（40.9 tok/s）在速度与质量间取得了较好平衡。
慢速梯队：Qwen 3.5 系列因开启 thinking 模式导致速度显著下降；Phi 3.5 和 Mistral 7B 因输出大量废话导致有效吞吐量降低。

翻译质量与黑话处理

社区黑话挑战：小模型普遍难以理解 LINUX DO 特有黑话。例如，“车位”被多数模型直译为 parking space/spot，未能识别其“订阅拼车名额”的含义；“薅羊毛”在 Qwen 3.5 2B 上译为 "Scraping for freebies" 表现最佳，而 Phi 3.5 甚至译为 "Grow wool"（长羊毛），完全反义。
UI 元素翻译：在“跳蚤市场”翻译中，Gemma 3 1B 误译为 "Swarm Market"（蜂群市场），Mistral 7B 误译为 "Bed Bug Market"（臭虫市场），显示出小模型在特定语境下的幻觉风险。

关键指标：中文泄漏率与指令遵从

中文泄漏：HY-MT 1.5 表现最佳（1.5%），Qwen 3.5 4B 次之（3.0%）。令人意外的是，Qwen 2.5 7B 的泄漏率（20.5%）高于 Qwen 2.5 3B（18.2%），而 Qwen 3.5 系列大幅改善了这一问题。
指令遵从（废话率）：Qwen 3.5 系列实现了 0% 的多余注释率。相比之下，Phi 3.5 和 Mistral 7B 的废话率高达 40% 左右，严重违反“仅输出翻译”的指令，导致翻译结果不可用。

多语言能力差异

英语：各模型表现差异最小，均为强项，主要区别在于中文残留和废话率。
韩语：重灾区。Llama 3.2 3B 的中文泄漏率高达 64%，Mistral 7B 为 52%。小模型普遍不擅长中→韩翻译。
日语：由于汉字共享，中文泄漏检测困难，但翻译准确度差异大。Gemma 3 4B 将“跳蚤市场”译为地道的 "蚤の市"，而 Qwen 3.5 系列出现乱翻或回显原文的情况。
德语：整体最干净，多数模型泄漏率极低。

关键要点

TranslateGemma 4B 登顶：作为 Google 基于 Gemma 3 训练的专项翻译模型，TranslateGemma 4B 在综合质量、指令遵从和多语言表现上表现优异，是本地部署翻译任务的首选之一。
Qwen 3.5 系列进步显著：相比 Qwen 2.5 系列，Qwen 3.5（2B/4B）在中文泄漏率、指令遵从度（0% 废话）上实现巨大飞跃，且 Qwen 3.5 4B 是唯一在所有测试语言上中文泄漏率均 ≤3% 的模型。
专项模型优于通用模型：HY-MT 1.5（1.8B）和 TranslateGemma 4B 作为翻译微调模型，在特定任务上优于同等或更大参数的通用模型（如 Llama、Mistral）。
Phi 3.5 和 Mistral 7B 不适合翻译：这两款模型在翻译任务中表现出极高的“废话率”（近 40% 输出包含解释或免责声明），严重违反简洁指令，导致实际可用性极低。
小模型难以理解社区黑话：≤7B 的模型在处理 LINUX DO 特有的俚语（如“车位”、“薅羊毛”）时，普遍倾向于字面直译，缺乏语境理解能力，需配合上下文工程或人工校对。
韩语翻译是小模型的短板：相比英语和德语，韩语翻译的中文泄漏率显著偏高，Llama 和 Mistral 系列在此语言上表现尤为糟糕。
速度并非唯一考量：虽然 Gemma 3 1B 速度极快，但其翻译质量堪忧；Qwen 3.5 若开启 thinking 模式会显著降低速度，建议在纯翻译任务中关闭该功能。

意义与影响

本次横评揭示了本地部署小模型在翻译任务中的真实水平与局限性。对于追求隐私保护和低成本的开发者而言，Qwen 3.5 4B 和 TranslateGemma 4B 是目前自部署翻译的最佳选择，它们在质量、速度和指令遵从之间取得了最佳平衡。

然而，测试也暴露出小模型在处理非标准语言（如社区黑话、特定文化语境）时的能力瓶颈。这表明，尽管小模型在标准文本翻译上已接近可用水平，

查看原文 →linux.do