技术博客arXiv cs.CL·1 天前

利用潜在空间：从转向向量到模型校准器实现控制与信任

原标题：Harnessing the Latent Space: From Steering Vectors to Model Calibrators for Control and Trust

速览

论文讨论如何利用语言模型的潜在空间，通过转向向量实现对模型行为的精确控制。研究还开发了基于潜在空间的模型校准器，帮助用户在高风险场景下评估模型输出是否可信。作者强调这些方法能解开大模型内部表征的神秘面纱，为构建更可靠的语言技术提供新思路和见解。

AI 深度解读

## 背景

语言模型（Language Models）已从早期的不可靠文本生成器，发展为具备数万亿参数的强大大模型。随着模型规模的持续扩大，模型的能力显著提升，但其内部表示（internal representations）也变得更加复杂和难以理解。

随着数百万用户日益依赖语言模型进行外部工具交互或在中等或高风险场景中做出决策，我们迫切需要对模型行为建立有效控制，并在模型输出时判断是否值得信任（trust）。论文作者 Nishant Subramani（卡内基梅隆大学）提出，通过利用语言模型的“潜空间”（latent space）——模型内部隐藏状态的表示空间——来实现这两项目标。

具体而言，作者通过提出“转向向量”（steering vectors）实现模型控制，并开发基于潜空间的“模型校准器”（model calibrators）来提升信任度。这些贡献共同帮助揭示语言模型的潜空间本质，并为构建更可控、更可靠的语言技术提供新见解。

## 核心内容

论文核心围绕四个研究线程展开，旨在揭示和利用语言模型的潜空间：

控制部分（§2 与 §3）：针对长短期记忆模型（LSTM-based language models）和 Transformer 架构的语言模型，提出转向向量（steering vectors）。对于 LSTM 模型，作者定义句子空间为动态系统中的轨迹，通过向隐藏状态和细胞状态注入 bias 项（称为转向向量 z），优化该向量以最大化给定序列的对数概率，实现零参数更新下的精确生成任意序列（token-level exact match 可达 0.99）。实验使用 Gigaword 语料训练的模型（不同隐藏维度），并在 IWSLT16 翻译数据集上验证泛化性。

转向向量具备双向映射能力（forward estimation 将序列压缩为向量，backward estimation 通过注入向量和 beam search 恢复序列）。更大、更训练充分的模型恢复性更高，随机高熵序列恢复难度也大。

对于 Transformer 模型，作者进一步推广转向向量，支持精确序列生成（在特定层和时间步注入效果显著，Layer 6 self-attn 全时间步注入 BLEU-4 达 100.0）和概念级 steering（concept-based steering）。转向向量可作为通用表征，在推理时干预模型输出，克服传统微调的局限。
信任部分（§4 与 §5）：构建基于潜空间的模型内部置信度估计器（Model-Internal Confidence Estimators, MICE）。MICE 通过在每个中间层使用 logit lens 解码生成，并计算与最终输出的相似度分数，将这些特征馈入学习概率分类器，以校准工具调用（tool-calling）场景下的模型输出置信度，进而提升预期工具调用效用（expected tool-calling utility, ETCU）。

随后，作者提出通用激活-based 置信度、效用与信任估计协议（activation-based confidence, utility, and trust estimators, ACUTE），通过分析模型内部激活，在多选问答（MCQA，如 MMLU）、工具调用（APIGen）等任务上重新校准 LLM 输出，精确裁定是否信任模型结果，并扩展至新模型族和任务。

这些方法共同将语言模型从黑盒转向可操作的内部系统，允许在不改变参数的情况下实现精确干预和输出置信度评估。

## 关键要点

语言模型从不可靠生成器进化至数万亿参数的大模型，能力提升伴随规模扩大，内部表示理解难度增加。
转向向量（steering vectors）可在不更新任何参数的情况下，精确控制 LSTM 和 Transformer 语言模型生成指定序列（LSTM 中向量注入每时间步隐藏/细胞状态；Transformer 中层与时间步敏感）。
转向向量可映射序列与向量间双向；更大模型恢复性更高，随机序列恢复难于低熵序列。
转向向量支持概念级 steering，可作为通用表征在推理时干预模型输出。
MICE 通过中间层 logit lens 解码相似度特征，学习分类器校准工具调用置信度，提升工具调用效用。
ACUTE 协议基于模型激活，通用适用于置信度/效用/信任估计，在 MCQA 和工具调用任务上校准输出。
整体贡献揭示潜空间本质，助力构建更可控、更可信的语言技术。

## 意义与影响

本文提出的转向向量和潜空间校准器为解决语言模型可信度问题提供了实用、可操作的工具，特别适用于高风险应用场景（如与外部工具交互或辅助决策）。它打破了将模型视为黑盒的传统认知，强调“内部可操作性”，为后续研究和部署提供直接见解。

未来，该框架可能推动开发更安全、透明的语言模型系统，帮助用户在复杂场景中做出明智决策，并降低误用风险。作者强调，这些贡献不仅解构潜空间，还为未来语言技术设计提供新路径，标志着可解释 AI 和可控生成技术的重要进步。

查看原文 →arxiv.org

利用潜在空间：从转向向量到模型校准器实现控制与信任

速览

AI 深度解读

相关推荐