技术博客arXiv cs.CL·8 天前

自我验证蒸馏：你的语言模型秘密是其自身的合成数据流水线

原标题：Self-Verified Distillation: Your Language Model Is Secretly Its Own Synthetic Data Pipeline

速览

该研究提出“自我验证蒸馏”算法，使大语言模型仅凭无标签种子问题即可通过自验证机制筛选并训练自身。模型通过一致性、事实性和正确性三重级联检查构建高质量合成数据集，无需外部教师或工具反馈。在Qwen3系列模型上的实验表明，该方法在数学、科学和编程领域均取得显著性能提升，且推理时仅需单次调用。

AI 深度解读

Self-Verified Distillation：你的语言模型秘密地成为了自己的合成数据管道

背景

在大型语言模型（LLMs）的训练与优化领域，如何利用无标签数据提升模型推理能力一直是一个核心挑战。传统的监督微调（SFT）或人类反馈强化学习（RLHF）通常依赖于高质量的人工标注数据或外部教师的反馈。然而，获取大规模、高精度的标注数据成本高昂且难以扩展。

近期，研究者们开始探索“自训练”（Self-training）范式，即让模型利用自身生成的数据来进一步改进自身。但在这一过程中，如何确保模型生成的“合成数据”（Synthetic Data）的质量，避免“垃圾进，垃圾出”（Garbage In, Garbage Out）的陷阱，是一个尚未完全解决的技术难题。特别是对于数学、科学和编程等需要严格逻辑推理的领域，缺乏标准答案（Ground-truth solutions）使得验证过程变得尤为复杂。

在此背景下，一项发表于 arXiv（cs.CL）的新研究提出了一种名为 Self-Verified Distillation（自验证蒸馏） 的方法。该方法旨在回答一个关键问题：经过后训练（Post-trained）的大型语言模型，是否可以在没有外部教师或工具反馈的情况下，仅利用无标签提示（Unlabeled prompts），通过自我验证机制来进一步优化自身？

核心内容

本研究聚焦于数学、科学和编程三个推理领域，提出了一种简单的后训练细化算法——Self-Verified Distillation。该方法的核心在于构建一个无需外部干预的合成数据管道，具体流程如下：

1. 数据构建：从种子问题到自我策展数据集

研究从一组无标签的种子问题（Seed questions）开始，这些问题没有预设的标准答案。模型首先生成针对这些种子问题的候选解决方案。随后，模型利用基于提示词（Prompt-based）的自我验证机制，对这些候选解进行筛选，最终形成一个由模型“自我策展”（Self-curated）的高质量数据集，并用于后续的模型训练。

2. 验证机制：三级级联过滤

受 UQ Benchmark（不确定性量化基准）中利用多个验证器筛选难题答案的启发，本研究将基于验证的过滤思想适配到自训练场景中。模型通过一个三级级联（Three-stage cascade）的检查流程来过滤其自身生成的解决方案：

循环一致性检查（Cycle-consistency checks）：验证答案逻辑的内部连贯性。
事实性检查（Factuality checks）：确保答案中的陈述符合已知事实。
正确性检查（Correctness checks）：评估答案的最终结果是否正确。

只有当候选解决方案在上述三个阶段中均获得“一致投票”（Unanimous judge votes）通过时，该解才会被保留并纳入训练数据。这里的“Judge”即指模型自身或其内部的不同推理路径。

3. 实验设置与模型规模

研究团队使用 Qwen3 模型系列进行了实验，涵盖了多个参数规模，包括 0.6B、4B 和 8B 版本。实验旨在验证该方法在不同模型尺度下的通用性和有效性。

4. 性能提升结果

在多个基准测试中，Self-Verified Distillation 展现了显著的性能提升：

数学领域：在 AIME26 和 HMMT 基准上，Qwen3-4B 模型的 aggregate held-out pass@1 提升了 +16.7 分。
科学领域：在 GPQA Diamond 和 HLE 基准上，提升了 +11.1 分。
编程领域：在 LCBv5 和 LCBv6 基准上，提升了 +8.3 分。

此外，这种性能增益也延伸到了 0.6B 和 8B 的较小或较大模型中，表明该方法具有良好的可扩展性。

5. 与测试时计算（Test-Time Compute）基线的对比

研究将 Self-Verified Distillation 与仅依赖测试时计算的基线方法（UQ-TTC）进行了对比。UQ-TTC 通过在推理阶段消耗额外的计算资源（如多次采样、验证）来提升性能。相比之下，Self-Verified Distillation 在大多数设置下取得了更好的性能，且其最大优势在于：在测试阶段仅需单次推理调用（Single inference call）。这意味着它在保持高精度的同时，大幅降低了部署时的推理延迟和计算成本。

关键要点

无需外部监督：Self-Verified Distillation 完全依赖模型自身生成和验证数据，无需人工标注或外部工具反馈，实现了真正的“自举”优化。
三级验证级联：通过循环一致性、事实性和正确性三个阶段的严格筛选，有效过滤了低质量的合成数据，解决了自训练中的数据噪声问题。
高质量数据源于高预算：研究发现，在构建训练数据时，采样更多的候选生成（Candidate generations）和使用更大的验证预算（Verification budget），能够产生更高质量的自我策展数据，进而带来更好的推理模型。
全领域通用性：该方法在数学、科学和编程三个高难度推理领域均取得了显著提升，证明了其跨领域的适用性。
效率与性能的双重优势：相比依赖测试时额外计算的基线方法，Self-Verified Distillation 不仅性能更优，而且推理成本更低（单次调用），更适合实际生产环境的部署。

意义与影响

Self-Verified Distillation 的提出，为大型语言模型的持续进化提供了一条低成本、高效率的新路径。

首先，它打破了传统模型优化对昂贵人工标注数据的依赖。通过让模型成为自己的“合成数据管道”，研究者可以利用海量的无标签文本数据来挖掘模型的知识边界，从而以极低的边际成本实现模型能力的迭代升级。这对于资源受限的组织或开源社区而言，具有极高的实用价值。

其次，该方法强调了“验证”在自训练中的核心地位。传统的自训练往往直接采用模型生成的最佳输出，容易引入错误累积。Self-Verified Distillation 通过严格的三级验证机制，证明了“质量优于数量”的原则，即经过严格筛选的少量高质量数据，远胜于未经过滤的海量数据。

最后，从工程落地的角度来看，该方法解决了推理效率与模型性能之间的权衡难题。在追求更高推理能力的同时，保持单次调用的低延迟特性，使得经过 Self-Verified Distillation 优化的模型（如 Qwen3 系列）能够更顺畅地集成到实时性要求高的应用场景中。随着 Qwen3 等模型规模的扩大，这种自我验证蒸馏技术有望成为大模型后训练（Post-training）的标准组件之一。

查看原文 →arxiv.org