AI 资讯Hacker News·3 小时前

VibeThinker：3B参数模型凭SFT+GRPO推理能力超越Opus 4.5

原标题：VibeThinker: 3B param model that beats Opus 4.5 on reasoning with novel SFT+GRPO

速览

VibeThinker是一个仅含30亿参数的模型，通过结合监督微调（SFT）和基于人类反馈的强化学习（GRPO）技术，在推理任务上表现优异。该模型成功超越了参数量巨大的Opus 4.5，证明了小参数模型在特定训练策略下具备强大的推理潜力。这一成果为高效能、低资源消耗的大模型开发提供了新方向。

AI 深度解读

VibeThinker-3B：30亿参数模型在推理任务上击败 Opus 4.5？深度解读

背景

在大型语言模型（LLM）领域，参数量通常被视为性能的决定性因素。然而，随着计算成本的上升和部署需求的多样化，如何在保持高性能的同时大幅降低模型规模，成为学术界和工业界共同关注的核心议题。传统的观点认为，小参数模型（Small Language Models, SLMs）往往在复杂推理任务上难以匹敌千亿级参数的旗舰模型。

近期，一项名为 VibeThinker-3B 的研究成果引发了广泛关注。该模型仅拥有 30 亿（3B）参数，却在多项高难度的可验证推理基准测试中，取得了与 DeepSeek V3.2、GLM-5、Gemini 3 Pro 甚至 OpenAI 的 Opus 4.5 等旗舰模型相媲美甚至超越的性能。这一发现挑战了“大参数即正义”的传统认知，并提出了关于“参数压缩与覆盖”的新假设。

核心内容

VibeThinker-3B 是由研究团队开发的一款紧凑型密集模型（compact dense model），旨在探索在严格的小模型参数限制下，可验证推理能力所能达到的极限。该研究基于 Spectrum-to-Signal 后训练范式，通过一套优化的训练流水线系统性地增强了模型能力。

训练方法论

该模型的核心创新在于其独特的训练流程，主要包含以下三个关键阶段：

基于课程学习的监督微调（Curriculum-based SFT）：模型首先通过精心设计的课程学习策略进行监督微调。这种策略并非随机选取数据，而是按照难度递增或逻辑复杂度有序排列的训练样本，帮助小模型逐步建立坚实的推理基础。
多领域强化学习（Multi-domain Reinforcement Learning）：在 SFT 之后，研究引入了强化学习阶段，涵盖多个领域的数据。这一过程旨在通过奖励模型反馈，进一步优化模型的推理路径和决策准确性，特别是在处理需要多步逻辑推导的任务时。
离线自蒸馏（Offline Self-distillation）：最后，利用离线自蒸馏技术，模型从自身或更大规模的教师模型中汲取知识，进一步压缩和提炼推理核心，提升泛化能力。

实验评估结果

VibeThinker-3B 在多项极具挑战性的基准测试中展现了前沿水平的性能，具体数据如下：

AIME26：取得 94.3 分。若结合 Claim-level 测试时扩展（test-time scaling），分数可提升至 97.1。
LiveCodeBench v6：Pass@1 得分达到 80.2。
LeetCode 竞赛泛化：在近期未见的 LeetCode 竞赛题目中，表现出强大的分布外（out-of-distribution）泛化能力，接受率高达 96.1%。
指令遵循能力：在 IFEval 基准测试中获得 93.4 分，证明极致的推理增强并未牺牲严格的指令可控性。

性能对比

令人震惊的是，VibeThinker-3B 的性能表现使其进入了第一梯队推理系统的性能区间。它在多项指标上匹配或超过了参数量比其大数个数量级的旗舰模型，包括：

DeepSeek V3.2
GLM-5
Gemini 3 Pro
Opus 4.5（注：标题提及击败 Opus 4.5，正文主要对比了上述模型，但整体性能处于同一梯队）

关键要点

极致的小模型性能：仅 3B 参数的 VibeThinker-3B 在数学推理（AIME）、代码生成（LiveCodeBench, LeetCode）等硬核任务上，达到了与千亿级参数旗舰模型相当的水平。
创新的训练范式：研究验证了 Spectrum-to-Signal 范式的有效性，通过“课程学习 SFT + 多领域 RL + 离线自蒸馏”的组合拳，显著提升了小模型的推理上限。
参数压缩与覆盖假说（Parametric Compression-Coverage Hypothesis）：
- 研究团队基于此发现提出了新假设：可验证推理能力可以被压缩进紧凑的“推理核心”中，这部分能力对参数量的依赖相对较低，更多依赖于高质量的训练策略。
- 相反，开放域知识和通用能力则需要广泛的参数覆盖，以容纳事实、概念和长尾场景。
小模型的战略价值重估：小参数模型不再仅仅是部署效率高的替代品，而是通向前沿性能的一种互补路径。在参数密集的能力区间内，通过优化训练方法，小模型同样能实现突破。
指令遵循未受损：在大幅提升推理能力的同时，模型在 IFEval 上的高分表明，其严格遵循用户指令的能力并未因复杂的推理增强而减弱。

意义与影响

VibeThinker-3B 的出现对 AI 行业具有深远的启示意义：

打破“规模定律”的迷思：长期以来，业界普遍认为提升推理能力必须依赖参数的线性甚至超线性增长。VibeThinker-3B 的成功证明，通过更先进的训练算法（如强化学习和蒸馏），可以在不增加甚至大幅减少参数的情况下，挖掘出模型潜在的推理能力。这为降低算力成本、提高模型部署效率提供了新的技术路径。
推动小模型（SLM）的复兴：随着端侧设备（如手机、PC）对本地 AI 模型需求的增加，VibeThinker-3B 证明小模型可以在不牺牲核心智能（特别是逻辑推理）的前提下，实现高效部署。这将加速 AI 在边缘计算场景中的应用落地。
重新定义“能力”的构成： “参数压缩与覆盖假说”为模型架构设计提供了新的理论指导。未来，研究者可能会更专注于构建高效的“推理核心”模块，而非盲目堆砌参数。这可能催生新型混合架构，即在较小的基础模型上挂载专门的推理增强模块。
对开源社区的激励：该研究展示了开源小模型在特定任务上挑战闭源巨头的可能性。这将激励更多研究者和开发者投身于小模型优化领域，促进 AI 技术的民主化和多样化发展。

总之，VibeThinker-3B 不仅是一个性能优异的小模型，更是一次对当前大模型发展范式的重要反思。它表明，在追求智能的道路上，算法的创新和训练策略的优化，其价值不亚于参数规模的扩张。

查看原文 →arxiv.org