← 返回信息流
技术博客arXiv cs.AI·1 天前

Data and Evaluation Closed-Loop for Model Capability Enhancement

AI 深度解读

背景

在大语言模型(LLM)的预训练与优化过程中,模型能力是核心的变量,但它本身从未被直接观测到。数据前瞻性地塑造着模型能力,而评估仅能回顾性地揭示这种能力——将海量的样本、提示(prompt)、解码过程和评分规则压缩成一个充满噪声的分数。

在实际的工程优化中,这一过程往往是反向运行的:工程师首先观察到模型在评估中的失败,然后必须反向推断出语料库所需的修复。然而,评估端与数据端使用的词汇体系是完全不兼容的——评估端谈论的是基准名称(Benchmark)和单样本正确性,而数据端谈论的是数据源、领域和质量标签。这种语义鸿沟导致从评估失败到数据干预的推断,通常只能依赖工程师的直觉,而非系统性的方法论。

核心内容

为了解决评估与数据之间的割裂问题,本文提出了“数据与评估闭环”,其核心基石是一个全新的概念——“能力切片”

1. 能力切片 “能力切片”是指一组共享特定背景条件、任务类型、求解操作和输出约束的评估样本。它的设计精妙地平衡了粒度与稳定性:相比于基准名称(Benchmark name),它足够精细,能够定位到模型的单一弱点;相比于单个评估样本,它又足够稳定,能够经受住聚合分析,排除噪声干扰。

2. 闭环的构建 围绕“能力切片”这一基本单元,本文构建了一套闭环系统,包含三个核心组件:

  • 评估分类法:将评估样本按能力切片进行结构化组织。
  • 非指令数据分类法:对预训练/继续预训练数据进行结构化标注。
  • 映射规则:建立评估分类法与数据分类法之间的桥梁。

这套闭环的作用在于,能够将一个基准级别的宏观失败,转化为微观层面有针对性的、可测试的数据干预。

**

查看原文 →arxiv.org