技术博客Hugging Face Blog·2026/4/29

Granite 4.1 大语言模型：构建之道

原标题：Granite 4.1 LLMs: How They’re Built

速览

IBM近日发布了Granite 4.1系列大语言模型，并公开了其详细的构建方法。该系列模型通过优化数据质量与训练策略，显著提升了性能与效率。这一举措展示了IBM在垂直领域大模型研发上的最新技术进展。

AI 深度解读

Granite 4.1 LLMs: How They’re Built 深度解读

背景

在大语言模型（LLM）的发展进程中，提升小型模型的性能往往被视为比单纯堆砌算力更具挑战性的任务。IBM 的 Granite 团队发布了 Granite 4.1 系列模型，这是一组密集架构（Dense）、仅解码器（Decoder-only）的 LLM，包含 3B、8B 和 30B 三种参数规模。

该系列模型的核心设计理念是“数据质量优于数据数量”。与以往通过大规模扩展计算资源来提升模型能力的做法不同，Granite 4.1 强调在整个训练生命周期中严格把控数据质量。模型在约 15 万亿（15T）token 的数据集上进行了从头训练，并采用了多阶段预训练管道，包括将上下文窗口扩展至 512K token 的长上下文训练。随后，模型通过监督微调（SFT）在约 410 万高质量人工筛选样本上进行精炼，并采用基于策略的强化学习（On-policy GRPO）结合 DAPO 损失函数进行进一步优化。

值得注意的是，尽管 Granite 4.1 8B 指令模型采用了更简单的密集架构且参数量更少，但其性能匹配甚至超越了前代 Granite 4.0-H-Small（一个拥有 32B 激活参数、9B 活跃参数的混合专家模型 MoE）。所有 Granite 4.1 模型均基于 Apache 2.0 许可证开源。

核心内容

Granite 4.1 的构建过程是一个高度系统化、分阶段的数据精炼与模型优化过程，主要涵盖模型架构、五阶段预训练、监督微调（SFT）以及多阶段强化学习（RL）四个核心部分。

1. 模型架构

Granite 4.1 系列模型均采用密集 Transformer 架构，仅包含解码器层。其核心设计选择包括：

Grouped Query Attention (GQA)：提升推理效率。
Rotary Position Embeddings (RoPE)：用于位置编码。
SwiGLU Activations：激活函数。
RMSNorm：归一化层。
Shared Input/Output Embeddings：共享输入和输出嵌入层。

三种不同规模的模型共享相同的训练管道和数据策略，仅在架构维度上有所区别。

2. 五阶段预训练策略

Granite 4.1 基于约 15 万亿 token 的数据从头训练，分为五个阶段，逐步从广泛的网络数据过渡到高质量、特定领域的内容。

阶段 1：通用预训练（10T tokens） 建立广泛的语言理解能力。数据混合比例如下：
- CommonCrawl（通用网络数据）：~59%
- Code（编程语言及仓库）：~20%
- Math（数学推理数据）：~7%
- Technical（科学论文、技术文档）：~10.5%
- Multilingual（非英语数据）：~2%
- Domain Specific（特定领域内容）：~1.5% 采用幂律学习率调度（Power learning rate schedule）及预热（Warmup）。
阶段 2：数学/代码预训练（2T tokens） 大幅提高代码和数学数据的比例，以增强推理能力，同时保持通用语言覆盖。
- Math：~35%（较阶段 1 增加 5 倍）
- Code：~30%（较阶段 1 增加 1.5 倍）
- CommonCrawl-HQ（高质量 CommonCrawl 子集）：~12%
- Synthetic（合成高质量数据）：~9%
- Technical：~10%
- Multilingual：~3%
- Domain：~1%
阶段 3：高质量数据退火（2T tokens） 进入中期训练，采用更平衡的高质量数据混合，并使用指数衰减学习率调度。此阶段开始引入思维链（Chain-of-Thought）和合成指令数据。
- CommonCrawl-HQ：~16.67%
- Math：~16.67%
- Code：~16.67%
- Synthetic：~8.5%
- Technical：~12.5%
- Multilingual：~4.5%
- Long Chain-of-Thought（推理轨迹）：~12.5%
- Language Instructions（指令微调数据）：~7.5%
- Code Instructions（指令微调数据）：~4.5%
阶段 4：高质量数据退火——精炼（0.5T tokens） 继续中期训练，学习率线性衰减至零，专注于最高质量的数据。
- CommonCrawl-HQ：~40%
- Code：~20%
- Math：~20%
- Long Chain-of-Thought：~6%
- Code Instructions：~5%
- Language Instructions：~9%
阶段 5：长上下文训练（LCE） 作为中期训练的一部分，通过分阶段过程将上下文窗口从 4K 扩展至 512K。
- 32K 扩展：使用与阶段 4 相同的数据混合。
- 128K 扩展：使用与阶段 4 相同的数据混合。
- 512K 扩展（仅 8B 和 30B 模型）：80% 书籍数据 + 20% 代码仓库数据。
该阶段使用从 1e-4 开始并衰减至 0 的指数学习率调度。为确保模型原生处理长序列且不损害短上下文性能，每个 LCE 阶段后都会进行模型合并。

3. 监督微调（SFT）：数据准备与质量控制

SFT 是将基础模型转化为可靠指令遵循助手的关键步骤。为了防止错误样本导致模型产生不良行为，团队采用了严格的 LLM-as-Judge（大模型作为裁判） 框架结合基于规则的过滤。

评估机制：
- 仅评估助手回复，将系统提示、用户输入、检索文档和工具输出视为上下文信息。
- 在 RAG（检索增强生成）场景下，未基于检索上下文生成的回复会被标记为幻觉。
- 工具使用输出会根据允许的工具集及其参数模式进行验证。
多维度评分：针对多轮对话、RAG 增强回复、工具调用交互和多语言对话等不同类型的 SFT 数据，使用专门的裁判提示词。每个回复在六个加权维度上进行评分：
1. 指令遵循 (Instruction following)
2. 正确性 (Correctness)
3. 完整性 (Completeness)
4. 简洁性 (Conciseness)
5. 自然度 (Naturalness)
6. 校准度 (Calibration，可选批判性思维检查)
硬性拒绝规则：无论得分如何，存在严重缺陷（如幻觉、错误前提、计算错误）的样本会被自动拒绝。
基于规则的过滤：包括文本规范化、截断和长度过滤、模式验证以及泄漏检测。最后进行全局去重，确保数据集的唯一性。所有过滤和修正操作均可审计。
训练规模：经过上述流程筛选后，使用约 410 万高质量样本对基础模型进行微调。

4. 强化学习：多阶段 RL 管道

在 SFT 之后，团队应用多阶段强化学习管道，针对特定领域进一步优化模型能力，而非仅进行一次 RL 训练。

方法论：使用 On-policy GRPO（Group Relative Policy Optimization，组相对策略优化）

查看原文 →huggingface.co