← 返回信息流
AI 资讯雷峰网·2 小时前

清华ICML26提出UDS框架:智能筛选样本使大模型微调算力减半

原标题:ICML26 重磅成果!清华 UDS 智能筛选训练样本,大模型微调算力直接减半

速览

清华大学自动化系在ICML 2026提出在线样本筛选框架UDS,颠覆大模型监督微调全量数据投喂的传统模式。该框架复用前向传播的logits信息,同步评判样本价值与多样性,自动过滤低质冗余数据。实测表明,UDS在提升训练吞吐量的同时,可将算力消耗降低近50%,有效解决算力浪费与过拟合痛点。

AI 深度解读

背景

在大模型监督微调(SFT)阶段,行业长期存在一种固有认知,即训练数据规模越大,模型最终效果越好。然而,工程实践早已推翻这一结论。2026 年的产业调研数据显示,国内大模型训练的整体算力有效利用率不足五成,大量 GPU 算力被消耗在重复、低信息量或存在偏见的冗余样本上。

全量样本训练不仅推高了企业在 GPU 采购和云算力租赁上的成本,还极易引发模型过拟合及认知偏见放大等问题。特别是在金融、医疗、工业等垂直领域,企业开展定制化微调时,动辄数十万条标注数据带来了极高的时间与资金成本,算力浪费已成为制约中小 AI 企业迭代模型的核心痛点。

尽管行业已意识到智能挑选样本的价值,并推出了 MaxLoss、MaxGrad、GREATS 等在线批次选择方案,但这些技术均存在难以调和的短板:

  1. 单一维度评估:多数方法仅衡量样本训练难度(如优先选取损失值高的样本),忽略样本间及样本内部的信息多样性,导致批量样本高度同质化,持续训练反而叠加偏差。
  2. 额外开销过大:部分方案需要引入验证集、外部参考模型或进行多次反向传播计算梯度,其额外开销甚至超过全量训练,难以真正落地工业化场景。

行业始终缺乏一个能兼顾效率、精度与轻量化的一体化筛选框架。

核心内容

近日,在顶级机器学习会议 ICML 2026 上,清华大学自动化系团队发布了全新的在线样本筛选框架 UDS。该框架彻底颠覆了大模型 SFT “全量数据投喂”的传统模式,无需完整遍历全部训练数据集,即可在不损失模型精度的前提下大幅压缩训练算力消耗。

1. 核心机制:基于原生 Logits 的双重维度打分 UDS 的核心创新在于复用前向传播生成的 logits 矩阵,无需额外计算开销即可同步完成对样本价值与多样性的评判:

  • 样本内部重要性(效用):利用 logits 矩阵核范数计算样本内部的重要性分数,量化单条文本自身的信息丰富度与训练增益。
  • 样本间多样性:通过低维投影压缩样本特征,借助缓存缓冲区计算样本与历史训练数据的距离,保障批次内样本的差异化。
  • 融合筛选:将上述两套分数加权融合,自动过滤重复、低质量的劣质样本,筛选出最优样本进行训练。

2. 工程优化:低维投影与 FIFO 内存缓存 为解决海量 logits 矩阵存储占用内存过高的工程难题,UDS 采用了配套设计:

  • 若直接存储原始 logits 向量,千级样本即可占用数十 GB 显存,极大限制训练集群并发规模。
  • UDS 采用随机投影算法压缩特征维度,在几乎不损失样本距离判断精度的前提下,将内存开销控制在极低水平。
  • 配合 FIFO(先进先出)内存缓存机制,实现了高效的数据流转。

3. 实验验证:精度与效率双向提升 研究团队选用 Llama-3.1-8B通义千问 Qwen-2.5-7B 两大主流开源基座,在 MMLU(通用知识)、ScienceQA(科学问答)、GSM8K(数学推理)、HumanEval(代码生成)四大权威基准上进行了多轮对照实验。

  • 消融实验:验证了样本效用分数与多样性距离两大核心模块不可分割,单独使用任一模块仅能小幅提升精度,二者结合后模型综合能力实现跨越式增长。
  • 性能表现:以 Qwen-2.5-7B 为例,采用 UDS 筛选样本训练后,MMLU 准确率达到 63.34%,较此前最优方案 GREATS 提升 5.15 个百分点。ScienceQA、数学推理及代码评测同步全面领跑。
  • 算力节省:实测可实现算力成本近乎腰斩,同时训练吞吐量显著高于全量 SFT 模式,相同硬件条件下单位时间可处理更多有效样本。

4. 泛化能力:适配全场景微调 UDS 具备极强的泛化适配能力,不受训练参数规模、上下文长度、微调模式限制。实验验证了其在 8/16 不同批次大小、LoRA 低秩微调、全参数微调、2048 超长文本推理、分布外(OOD)泛化测试等多种工况下的稳定性。在同等样本选取比例下,UDS 在四大基准指标上全面领先于离线样本筛选算法 FisherSFT,证明在线动态筛选比事前离线过滤更贴合实时训练的真实需求。

关键要点

  • 算力减半:在不损失模型精度的前提下,UDS 可将大模型微调的算力消耗降低近 50%,大幅缓解算力高企带来的成本压力。
  • 零额外开销:依托模型前向传播原生的 logits 信息进行筛选,无需引入外部数据集、第三方模型或进行额外的反向传播计算。
  • 双重评判机制:同步考量样本的“内部信息丰富度”与“批次内多样性”,有效避免同质化样本导致的过拟合和偏差放大。
  • 内存优化:通过随机投影和低维压缩技术,解决了大规模训练中的显存瓶颈,支持更高并发的训练集群。
  • 广泛兼容:完美适配 LoRA 微调、全参微调、长上下文推理等全场景,无缝接入现有训练流水线,无需重构数据处理架构。
  • 全面领先:在多个主流开源基座和权威基准测试中,UDS 的表现均优于全量训练、随机采样、传统 Loss 筛选及离线筛选算法。

意义与影响

UDS 的落地恰逢 AI 产业从“比拼硬件算力规模”向“单位算力产出模型效能”转型的关键节点。

  1. 降低行业门槛:对于政务、制造、金融等垂直服务商,企业无需囤积大规模高端算力集群,依靠少量 GPU 即可完成高质量模型微调,大幅缩短产品迭代周期。
  2. 激活长尾创新:对于算力资源有限的科研团队和初创 AI 公司,该技术大幅降低了模型迭代试错成本,推动细分场景专用小模型快速落地,进一步激活国内 AI 长尾创新活力。
  3. 推动生态普及:随着该技术逐步开源落地,大模型训练将迈入“精准选样本、高效练模型”的精细化时代。这不仅解决了全量训练算力浪费的行业共性痛点,也为开源大模型生态的商业化普及提供了强有力的技术抓手。

综合来看,清华 UDS 在 ICML 2026 上展示的样本筛选方案,标志着大模型监督微调正式告别“数据堆砌”的粗放发展阶段,为缓解全行业算力成本压力、加速人工智能技术在千行百业的低成本规模化落地提供了全新解决方案。

查看原文 →leiphone.com