技术博客arXiv cs.AI·1 天前

Data and Evaluation Closed-Loop for Model Capability Enhancement

AI 深度解读

背景

在大语言模型（LLM）的预训练与优化过程中，模型能力是核心的变量，但它本身从未被直接观测到。数据前瞻性地塑造着模型能力，而评估仅能回顾性地揭示这种能力——将海量的样本、提示（prompt）、解码过程和评分规则压缩成一个充满噪声的分数。

在实际的工程优化中，这一过程往往是反向运行的：工程师首先观察到模型在评估中的失败，然后必须反向推断出语料库所需的修复。然而，评估端与数据端使用的词汇体系是完全不兼容的——评估端谈论的是基准名称（Benchmark）和单样本正确性，而数据端谈论的是数据源、领域和质量标签。这种语义鸿沟导致从评估失败到数据干预的推断，通常只能依赖工程师的直觉，而非系统性的方法论。

核心内容

为了解决评估与数据之间的割裂问题，本文提出了“数据与评估闭环”，其核心基石是一个全新的概念——“能力切片”。

1. 能力切片 “能力切片”是指一组共享特定背景条件、任务类型、求解操作和输出约束的评估样本。它的设计精妙地平衡了粒度与稳定性：相比于基准名称（Benchmark name），它足够精细，能够定位到模型的单一弱点；相比于单个评估样本，它又足够稳定，能够经受住聚合分析，排除噪声干扰。

2. 闭环的构建 围绕“能力切片”这一基本单元，本文构建了一套闭环系统，包含三个核心组件：

评估分类法：将评估样本按能力切片进行结构化组织。
非指令数据分类法：对预训练/继续预训练数据进行结构化标注。
映射规则：建立评估分类法与数据分类法之间的桥梁。

这套闭环的作用在于，能够将一个基准级别的宏观失败，转化为微观层面有针对性的、可测试的数据干预。

查看原文 →arxiv.org

Data and Evaluation Closed-Loop for Model Capability Enhancement

AI 深度解读

背景

核心内容

相关推荐