AI 资讯量子位·2 小时前

HuggingFace CEO力荐：1500美元训出的1B参数HRM模型为何走红

原标题：HuggingFace CEO力荐，Bengio团队也押注：这个1500美元训出的HRM模型，凭什么火了？

速览

一款参数量仅为1B、训练成本仅1500美元的HRM模型近期引发热议。该模型不仅获得HuggingFace CEO的强力推荐，还得到了Yoshua Bengio团队的支持与押注。其低成本、高效率的特性展示了小模型在特定场景下的巨大潜力，为AI模型的高效训练提供了新范式。

AI 深度解读

背景

在大型语言模型（LLM）行业长期遵循“Scaling Law”（缩放定律），即通过增加参数量、数据量和算力来提升模型能力的背景下，一种新的架构路线正在引发关注。Sapient Intelligence 发布了名为 HRM-Text 的模型，其训练成本仅约 1500 美元，参数量约为 1B（十亿），却凭借独特的架构设计在多个推理基准测试中取得了优异表现。

该模型由 HuggingFace 联合创始人兼 CEO Clem Delangue 亲自推荐，且图灵奖得主 Yoshua Bengio 作为共同作者参与的相关论文 GRAM（Generative Recursive Reasoning Models）在核心计算结构上高度复用了 HRM 的设计思路。这标志着 HRM（Hierarchical Reasoning Model，分层推理模型）不再仅仅是一个小模型案例，而是被视为下一代推理架构的重要探索方向。

核心内容

HRM-Text 的基本表现与训练条件 HRM-Text 是一个从零开始预训练的小模型，未使用蒸馏、微调或基于已有大模型的套壳技术。其训练成本约为 1500 美元，使用 16 块 NVIDIA H100 GPU 运行不到两天。训练数据仅包含约 40B 唯一 token（总训练量约 60B token），远少于主流模型（如 Llama 3.2 3B 使用约 9T token，Qwen3 系列 2B 使用约 36T token）。尽管数据量极少，HRM-Text 在多个推理密集型基准测试中表现强劲：

MATH: 56.2
GSM8K: 84.5
ARC-Challenge: 81.9
DROP: 82.2

在相同训练 FLOPs 条件下，相比基线模型，HRM-Text 在 ARC-Challenge 上从 51.9 提升至 81.9，MATH 从 35.4 提升至 56.2，GSM8K 从 48.4 提升至 84.5。团队同步开放了论文、模型权重和预训练代码，并经过严格的数据污染验证，证明其优势并非来自测试集泄漏。

HRM 架构的核心机制：潜空间递归推理 HRM 的核心思想是将推理过程从“显式输出”转向“潜空间内部计算”。传统 Chain-of-Thought (CoT) 让模型边说边想，导致 Token 消耗大、错误累积且推理结构绑定于语言表面。HRM 则试图在模型输出答案前，在内部潜空间完成多轮分层递归计算。

HRM 架构在模型内部引入了两个以不同节奏工作的模块，形成“双时间尺度”机制：

高层模块 (H, High-level)：被称为“战略脑”，更新速度慢，负责把握整体方向、维持长期上下文和决定推理路径。
低层模块 (L, Low-level)：被称为“执行脑”，更新速度快，负责局部计算、细节修正和逐步推进问题。

这两个模块并非外部多智能体协作，而是在同一个神经网络、同一份潜空间状态中反复迭代更新。这种设计使得有限参数能够通过更深的计算过程获得更强的推理能力，而非单纯依赖参数规模的扩张。

训练目标与方法创新 HRM-Text 在训练策略上进行了两项关键改革：

训练目标聚焦：采用 PrefixLM attention mask，模型仅对回答部分计算损失，指令部分仅作为上下文参与注意力计算。这避免了模型平均分配精力去预测题目本身，使训练信号更集中于任务完成。
稳定递归训练：为解决深层递归导致的梯度消失或爆炸问题，引入了 MagicNorm 和 warmup deep credit assignment 技术。前者保持激活值稳定，后者通过逐步加深信用分配，让模型先学会短路径计算，再扩展到深层推理，确保训练稳定性。

与 Bengio 团队 GRAM 的关系 图灵奖得主 Yoshua Bengio 参与发布的 GRAM 论文，在核心骨架上与 HRM 高度一致，包括高层状态、低层状态、双时间尺度、潜空间递归以及输出前的内部计算。GRAM 可以被视为在 HRM 确定的分层递归骨架上，增加了概率生成模块（prior, posterior, decoder），将其扩展为多轨迹的生成式推理框架。这表明 HRM 提出的架构假设已被顶尖学术界认可并进一步扩展。

关键要点

架构创新：HRM 提出了一种“高层—低层双时间尺度递归推理”架构，将推理从显式文本链（CoT）转化为潜空间内的多轮内部状态更新。
成本效率：HRM-Text 以约 1500 美元的训练成本和 1B 参数量，在推理基准上达到了与 2B-7B 主流模型相当甚至更优的水平，打破了“Scaling 是唯一正解”的行业惯性。
训练优化：通过仅对回答部分计算损失（PrefixLM）和引入 MagicNorm/warmup deep credit assignment，解决了递归架构训练不稳定和信号分散的问题。
学术验证：Yoshua Bengio 团队的 GRAM 模型在核心计算结构上复用了 HRM 的设计，证明了该路线在顶级研究社区中的可行性和重要性。
技术路线延续：Sapient 先通过 HRM-Symbolic 在封闭任务（如数独、迷宫）验证架构可行性，再通过 HRM-Text 将其扩展至开放的自然语言环境，形成了一条可复现、可验证的技术演进路径。
非简单小模型：HRM-Text 的成功并非单纯依靠“小模型”红利，而是通过重新设计计算结构，提高了有限参数下的有效计算深度。

意义与影响

对基础模型研发范式的挑战 HRM-Text 的出现挑战了基础模型研发日益“重工业化”的趋势。过去，模型创新高度依赖巨额算力和海量数据，使得只有巨头能参与前沿探索。HRM 证明，通过架构创新（如分层递归）和训练目标优化，可以在极低资源下实现高性能推理。这为大学实验室、创业团队和开源社区提供了验证新架构假设的可能性，有助于保持技术路线的多样性。

对企业 AI 落地的启示 对于企业而言，HRM 路线提供了一种更轻量、更可控的解决方案。企业往往不需要从零训练巨型通用模型，而是需要在特定任务上获得高效、可定制的推理能力。HRM 所代表的“计算结构优化”思路，意味着企业可以通过更高效的架构设计，降低对重型基础设施的依赖，从而更灵活地整合私有知识、调用工具和进行复杂规划。

对下一代推理模型的指引 HRM-Text 和 GRAM 的共同指向是：AI 推理正在从“写出思维链”转向“形成内部思维结构”。未来的推理模型不应仅依赖输出更长的文字链条，而应在潜空间中进行更深的内部计算。HRM 率先将这一概念转化为可运行的开源系统，使其成为下一代推理模型研究中的一个重要参照系。这不仅是一个模型的成功，更是行业对“智能是否仅来自规模扩张”这一根本问题的重新思考。

查看原文 →qbitai.com

HuggingFace CEO力荐：1500美元训出的1B参数HRM模型为何走红

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐