技术博客Hugging Face Blog·2026/4/29

Granite 4.1 大模型：揭秘其构建过程

原标题：Granite 4.1 LLMs: How They’re Built

速览

IBM 推出了新一代 Granite 4.1 大型语言模型系列。本文深入解析了该系列模型的构建细节，包括数据策略、训练流程及优化技术。这一发布旨在提升模型在特定领域的应用性能与可靠性。

AI 深度解读

Granite 4.1 LLMs：构建深度解读

背景

在大型语言模型（LLM）的发展初期，行业往往倾向于通过单纯增加计算量和数据规模来追求性能提升。然而，随着模型规模的扩大，数据质量的重要性日益凸显。IBM 的 Granite 团队指出，构建高质量的小参数语言模型不仅仅是扩展算力，更需要在整个训练过程中对数据进行严格的筛选和策展。

Granite 4.1 系列模型正是在这一理念下诞生的。它旨在证明，通过精细的数据策略和训练流程，小参数模型可以在特定任务上匹敌甚至超越更大规模的混合专家（MoE）模型。该系列模型包括 3B、8B 和 30B 三种尺寸的密集解码器模型，全部采用 Apache 2.0 开源许可证发布，旨在为社区提供高效、高质量且可自由使用的基座模型。

核心内容

Granite 4.1 的训练过程是一个高度结构化、多阶段的工程奇迹，涵盖了从预训练到监督微调（SFT），再到强化学习（RL）的全流程。

1. 模型架构

Granite 4.1 系列采用解码器（decoder-only）的密集 Transformer 架构。所有三种尺寸（3B、8B、30B）共享相同的训练管道和数据策略，仅在架构维度上有所区别。核心设计选择包括：

Grouped Query Attention (GQA)：提升推理效率。
Rotary Position Embeddings (RoPE)：增强位置编码能力。
SwiGLU 激活函数：优化非线性变换。
RMSNorm：标准化层。
共享输入/输出嵌入：减少参数量。

2. 预训练阶段（Pre-Training）

模型从零开始，在约 15 万亿（15T）个 token 上进行训练，分为五个阶段，逐步从广泛的网络数据过渡到高质量、特定领域的内容。

阶段 1：通用预训练（10T tokens） 建立广泛的语言理解能力。数据混合以通用网络数据为主：
- CommonCrawl ~59%
- 代码 ~20%
- 数学 ~7%
- 技术文档 ~10.5%
- 多语言 ~2%
- 特定领域 ~1.5%
阶段 2：数学/代码预训练（2T tokens） 显著增加代码和数学数据的比例，以增强推理能力，同时保持通用语言覆盖。
- 数学数据增加至 35%（阶段 1 的 5 倍）
- 代码数据增加至 30%（阶段 1 的 1.5 倍）
- 高质量 CommonCrawl ~12%
- 合成数据 ~9%
阶段 3：高质量数据退火（2T tokens） 进入中期训练，使用更平衡的高质量混合数据，并引入指数衰减的学习率调度。此阶段开始融入思维链（Chain-of-Thought）和合成指令数据。
- 高质量 CommonCrawl、数学、代码各占 ~16.67%
- 长思维链数据 ~12.5%
- 技术文档 ~12.5%
- 语言指令 ~7.5%
- 代码指令 ~4.5%
阶段 4：高质量数据退火——精炼（0.5T tokens） 继续中期训练，学习率线性衰减至零，专注于最高质量的数据。
- 高质量 CommonCrawl ~40%
- 代码 ~20%
- 数学 ~20%
- 长思维链 ~6%
- 语言指令 ~9%
- 代码指令 ~5%
阶段 5：长上下文训练（LCE） 将上下文窗口从 4K 扩展至 512K tokens。这是一个分阶段的扩展过程：
- 32K 扩展：使用阶段 4 的数据混合。
- 128K 扩展：使用阶段 4 的数据混合。
- 512K 扩展（仅限 8B 和 30B）：80% 书籍数据 + 20% 代码仓库数据。
此阶段使用从 1e-4 开始并衰减至 0 的指数学习率调度。为确保模型原生处理长序列且不损害短上下文性能，每个 LCE 阶段后都会进行模型合并。

3. 监督微调（SFT）：数据准备与质量控制

SFT 是将基座模型转化为可靠指令遵循助手的关键步骤。为了防止错误样本导致模型产生不良行为，团队采用了严格的 LLM-as-Judge（大模型作为裁判） 框架结合基于规则的过滤。

评估机制：
- 仅评估助手（Assistant）的回复，将系统提示、用户输入、检索文档和工具输出视为上下文信息。
- 在 RAG 场景下，未基于检索上下文生成的回复被标记为幻觉；工具使用输出需与允许的工具及其参数模式进行验证。
评分维度：针对多轮对话、RAG 增强回复、工具调用交互和多语言对话，使用专门的裁判提示词。每个回复在六个加权维度上评分：指令遵循、正确性、完整性、简洁性、自然度和校准度（可选批判性思维检查）。
决策逻辑：根据确定性分数阈值决定接受、标记为边缘或拒绝。存在“硬拒绝”规则，对于幻觉、错误前提或计算错误等严重缺陷，无论分数如何直接拒绝。
规则过滤：应用确定性基于规则的管道，通过文本规范化、截断、长度过滤、模式验证和泄漏检测来确保结构完整性。最后进行全局去重，所有过滤和修正操作均可审计。

4. 强化学习（RL）：多阶段 RL 管道

在 SFT 之后，团队应用多阶段强化学习管道，以针对特定领域进一步优化模型能力。

方法论：使用 On-policy GRPO（Group Relative Policy Optimization，组相对策略优化）结合 DAPO（Decoupled Clip and Dynamic sAmpling Policy Optimization，解耦裁剪与动态采样策略优化）损失函数。
策略：不同于单次 RL 过程，团队运行多个针对性的 RL 阶段，每个阶段优化不同的能力（如数学、代码、指令遵循等）。

关键要点

数据质量优于数量：Granite 4.1 的核心策略是在五个预训练阶段中逐步精炼数据混合，从广泛的网络数据转向高质量、特定领域的指令和推理数据。
长上下文原生支持：通过分阶段的长上下文扩展（LCE）和模型合并技术，模型原生支持高达 512K tokens 的上下文窗口，且未牺牲短上下文性能。
严格的 SFT 质量控制：引入“大模型作为裁判”框架，结合多维度评分和硬拒绝规则，确保微调数据的高质量和安全性，有效减少幻觉和不良行为。
小参数高性能：8B 指令模型在性能上匹配或超越了前代 Granite 4.0-H-Small（32B-A9B MoE 模型），证明了密集架构在精心数据策略下的竞争力。
开源许可：所有 Granite 4.1 模型均在 Apache 2.0 许可证下发布，允许广泛的商业和非商业用途。

意义与影响

Granite 4.1 的发布标志着开源小参数模型发展的重要一步。它打破了“只有大规模模型才能拥有高性能”的迷思，展示了通过精细的数据工程和训练策略，小模型同样可以在数学、代码和指令遵循等关键领域达到顶级水平。

对于开发者和企业而言，Granite 4.1 提供了以下价值：

成本效益：3B

查看原文 →huggingface.co