Granite 4.1 大模型:揭秘其构建过程
速览
IBM 推出了新一代 Granite 4.1 大型语言模型系列。本文深入解析了该系列模型的构建细节,包括数据策略、训练流程及优化技术。这一发布旨在提升模型在特定领域的应用性能与可靠性。
AI 深度解读
Granite 4.1 LLMs:构建深度解读
背景
在大型语言模型(LLM)的发展初期,行业往往倾向于通过单纯增加计算量和数据规模来追求性能提升。然而,随着模型规模的扩大,数据质量的重要性日益凸显。IBM 的 Granite 团队指出,构建高质量的小参数语言模型不仅仅是扩展算力,更需要在整个训练过程中对数据进行严格的筛选和策展。
Granite 4.1 系列模型正是在这一理念下诞生的。它旨在证明,通过精细的数据策略和训练流程,小参数模型可以在特定任务上匹敌甚至超越更大规模的混合专家(MoE)模型。该系列模型包括 3B、8B 和 30B 三种尺寸的密集解码器模型,全部采用 Apache 2.0 开源许可证发布,旨在为社区提供高效、高质量且可自由使用的基座模型。
核心内容
Granite 4.1 的训练过程是一个高度结构化、多阶段的工程奇迹,涵盖了从预训练到监督微调(SFT),再到强化学习(RL)的全流程。
1. 模型架构
Granite 4.1 系列采用解码器(decoder-only)的密集 Transformer 架构。所有三种尺寸(3B、8B、30B)共享相同的训练管道和数据策略,仅在架构维度上有所区别。核心设计选择包括:
- Grouped Query Attention (GQA):提升推理效率。
- Rotary Position Embeddings (RoPE):增强位置编码能力。
- SwiGLU 激活函数:优化非线性变换。
- RMSNorm:标准化层。
- 共享输入/输出嵌入:减少参数量。
2. 预训练阶段(Pre-Training)
模型从零开始,在约 15 万亿(15T)个 token 上进行训练,分为五个阶段,逐步从广泛的网络数据过渡到高质量、特定领域的内容。
-
阶段 1:通用预训练(10T tokens) 建立广泛的语言理解能力。数据混合以通用网络数据为主:
- CommonCrawl ~59%
- 代码 ~20%
- 数学 ~7%
- 技术文档 ~10.5%
- 多语言 ~2%
- 特定领域 ~1.5%
-
阶段 2:数学/代码预训练(2T tokens) 显著增加代码和数学数据的比例,以增强推理能力,同时保持通用语言覆盖。
- 数学数据增加至 35%(阶段 1 的 5 倍)
- 代码数据增加至 30%(阶段 1 的 1.5 倍)
- 高质量 CommonCrawl ~12%
- 合成数据 ~9%
-
阶段 3:高质量数据退火(2T tokens) 进入中期训练,使用更平衡的高质量混合数据,并引入指数衰减的学习率调度。此阶段开始融入思维链(Chain-of-Thought)和合成指令数据。
- 高质量 CommonCrawl、数学、代码各占 ~16.67%
- 长思维链数据 ~12.5%
- 技术文档 ~12.5%
- 语言指令 ~7.5%
- 代码指令 ~4.5%
-
阶段 4:高质量数据退火——精炼(0.5T tokens) 继续中期训练,学习率线性衰减至零,专注于最高质量的数据。
- 高质量 CommonCrawl ~40%
- 代码 ~20%
- 数学 ~20%
- 长思维链 ~6%
- 语言指令 ~9%
- 代码指令 ~5%
-
阶段 5:长上下文训练(LCE) 将上下文窗口从 4K 扩展至 512K tokens。这是一个分阶段的扩展过程:
- 32K 扩展:使用阶段 4 的数据混合。
- 128K 扩展:使用阶段 4 的数据混合。
- 512K 扩展(仅限 8B 和 30B):80% 书籍数据 + 20% 代码仓库数据。
此阶段使用从 1e-4 开始并衰减至 0 的指数学习率调度。为确保模型原生处理长序列且不损害短上下文性能,每个 LCE 阶段后都会进行模型合并。
3. 监督微调(SFT):数据准备与质量控制
SFT 是将基座模型转化为可靠指令遵循助手的关键步骤。为了防止错误样本导致模型产生不良行为,团队采用了严格的 LLM-as-Judge(大模型作为裁判) 框架结合基于规则的过滤。
- 评估机制:
- 仅评估助手(Assistant)的回复,将系统提示、用户输入、检索文档和工具输出视为上下文信息。
- 在 RAG 场景下,未基于检索上下文生成的回复被标记为幻觉;工具使用输出需与允许的工具及其参数模式进行验证。
- 评分维度: 针对多轮对话、RAG 增强回复、工具调用交互和多语言对话,使用专门的裁判提示词。每个回复在六个加权维度上评分:指令遵循、正确性、完整性、简洁性、自然度和校准度(可选批判性思维检查)。
- 决策逻辑: 根据确定性分数阈值决定接受、标记为边缘或拒绝。存在“硬拒绝”规则,对于幻觉、错误前提或计算错误等严重缺陷,无论分数如何直接拒绝。
- 规则过滤: 应用确定性基于规则的管道,通过文本规范化、截断、长度过滤、模式验证和泄漏检测来确保结构完整性。最后进行全局去重,所有过滤和修正操作均可审计。
4. 强化学习(RL):多阶段 RL 管道
在 SFT 之后,团队应用多阶段强化学习管道,以针对特定领域进一步优化模型能力。
- 方法论: 使用 On-policy GRPO(Group Relative Policy Optimization,组相对策略优化)结合 DAPO(Decoupled Clip and Dynamic sAmpling Policy Optimization,解耦裁剪与动态采样策略优化)损失函数。
- 策略: 不同于单次 RL 过程,团队运行多个针对性的 RL 阶段,每个阶段优化不同的能力(如数学、代码、指令遵循等)。
关键要点
- 数据质量优于数量:Granite 4.1 的核心策略是在五个预训练阶段中逐步精炼数据混合,从广泛的网络数据转向高质量、特定领域的指令和推理数据。
- 长上下文原生支持:通过分阶段的长上下文扩展(LCE)和模型合并技术,模型原生支持高达 512K tokens 的上下文窗口,且未牺牲短上下文性能。
- 严格的 SFT 质量控制:引入“大模型作为裁判”框架,结合多维度评分和硬拒绝规则,确保微调数据的高质量和安全性,有效减少幻觉和不良行为。
- 小参数高性能:8B 指令模型在性能上匹配或超越了前代 Granite 4.0-H-Small(32B-A9B MoE 模型),证明了密集架构在精心数据策略下的竞争力。
- 开源许可:所有 Granite 4.1 模型均在 Apache 2.0 许可证下发布,允许广泛的商业和非商业用途。
意义与影响
Granite 4.1 的发布标志着开源小参数模型发展的重要一步。它打破了“只有大规模模型才能拥有高性能”的迷思,展示了通过精细的数据工程和训练策略,小模型同样可以在数学、代码和指令遵循等关键领域达到顶级水平。
对于开发者和企业而言,Granite 4.1 提供了以下价值:
- 成本效益:3B
