技术博客arXiv cs.CL·3 小时前

SAGE：基于答案条件的不确定性校准方法

原标题：SAGE: Answer-Conditioned Uncertainty Targets for Verbal Uncertainty Alignment

速览

针对大语言模型自然语言不确定性表达与采样行为不一致的问题，研究提出SAGE（语义答案引导熵）作为群体级不确定性目标。该方法构建基于答案条件的不确定性几何结构，并结合GUPO框架对不确定性通道进行监督训练。实验表明，该方法在事实、数学及多项选择推理任务中显著降低了校准误差和过度自信现象。

AI 深度解读

SAGE：基于答案条件的不确定性目标，实现大模型“口头”不确定性的精准对齐

背景

大型语言模型（LLMs）在生成自然语言陈述以表达不确定性方面日益成熟，但这些“口头”表达往往无法准确反映模型在采样行为中的真实置信度。这种现象被称为“不确定性校准”问题。

目前，学术界将“口头不确定性对齐”（Verbal Uncertainty Alignment）视为一种分布校准问题。理想情况下，针对某个提示词（prompt）的适当不确定性目标，应当从模型的多次重复输出中估计得出，而不是基于单次孤立响应。然而，仅依靠组级 rollout（group rollouts，即对同一提示生成多个样本）是不够的，因为由此产生的目标必须能提供有效的训练信号。现有的不确定性目标仅部分满足了这一要求，导致模型在表达“我不知道”或“我有点确定”时，往往与实际的计算概率脱节。

核心内容

为了解决上述问题，研究人员提出了 SAGE（Semantic-Answer Guided Entropy，语义答案引导熵）以及配套的 GUPO（Group-Uncertainty Preference Optimization，组级不确定性偏好优化）框架。

1. SAGE：语义答案引导熵

SAGE 是一种组级不确定性目标，它通过在采样响应上构建“答案条件不确定性几何结构”（answer-conditioned uncertainty geometry）来工作。其核心创新在于：

保留答案区分度：SAGE 能够区分分类（categorical）、数值（numeric）和符号（symbolic）答案。这意味着它不仅能处理“是/否”或“A/B/C”的选择，还能处理数学计算结果或特定符号序列的不确定性评估。
平滑且保尺度的校准信号：与以往粗糙的离散目标不同，SAGE 提供了一个平滑且保持尺度关系的校准信号。这使得模型能够更精细地调整其口头表达的概率置信度，使其与采样分布更加一致。

2. GUPO：组级不确定性偏好优化

SAGE 作为目标函数，通过 GUPO 框架应用于训练过程。GUPO 是一个专注于“不确定性通道”的训练框架，其特点如下：

监督对象不同：传统方法通常监督完整的响应内容（即模型应该生成什么答案），而 GUPO 专门监督模型的“口头不确定性表达”（verbal uncertainty expressions）。
机制：它利用 SAGE 计算出的目标，通过偏好优化（Preference Optimization）技术，引导模型学会用自然语言更准确地描述其内部的不确定性状态，而不是仅仅优化答案的正确率。

3. 实验验证

研究者在事实性问答、数学推理和多选题推理任务上进行了广泛实验。结果显示，引入 SAGE 和 GUPO 后：

模型的不确定性排序（uncertainty ranking）能力得到提升。
校准误差（calibration error）显著降低。
模型的过度自信（overconfidence）现象减少。

关键要点

问题本质：LLM 的口头不确定性表达（如“我只有 50% 的把握”）与其实际采样行为之间存在分布偏差，现有方法无法提供足够精细的训练信号来对齐这两者。
SAGE 的核心机制：
- 基于组级采样（group-level sampling）构建目标。
- 构建“答案条件不确定性几何”，区分分类、数值和符号答案。
- 提供平滑、保尺度的校准信号，优于现有的离散或粗糙目标。
GUPO 的训练范式：
- 不监督完整答案，而是专门监督“不确定性表达”。
- 通过偏好优化框架，让模型学会“诚实地”表达其置信度。
适用范围：该方法适用于多种推理任务，包括事实性知识、数学计算和选择题推理。
主要成效：降低了模型的校准误差和过度自信倾向，提高了不确定性估计的可靠性。

意义与影响

SAGE 和 GUPO 的提出标志着大模型对齐技术从“内容正确性”向“元认知准确性”的延伸。

提升可信度与安全性：当模型能够更准确地表达其不确定性时，用户和下游系统可以据此判断何时信任模型的输出，何时寻求人工介入或额外验证。这对于医疗、法律等高风险领域的应用至关重要。
解决“虚假自信”问题：现有 LLM 常表现出过度自信，即使答案错误也声称高置信度。SAGE 通过分布校准，迫使模型在低置信度时“示弱”，从而减少误导。
方法论创新：将不确定性对齐定义为分布校准问题，并引入语义答案引导的熵计算，为后续研究提供了新的技术路径。特别是处理数值和符号答案的能力，扩展了不确定性校准的应用边界。
训练效率优化：GUPO 仅监督不确定性通道而非完整响应，可能在某些场景下降低训练复杂度或聚焦于特定能力的提升，为高效对齐提供了新思路。

总之，SAGE 不仅是一个新的损失函数或目标，更是一套完整的框架，旨在让大模型学会“自知之明”，使其口头表达与其内在的概率分布真正对齐。

查看原文 →arxiv.org