技术博客arXiv cs.CL·3 小时前

大模型检测与控制脱节：知道不等于能操控

原标题：Perfect Detection, Failed Control: The Geometry of Knowing vs. Steering in Language Models

速览

机制可解释性研究假设检测行为的方向与控制行为的方向一致，但新研究通过几何分析发现二者存在显著差异。在Gemma 2-2B-it等模型中，检测幻觉的方向与拒绝生成的方向夹角高达83度，证明检测并不蕴含控制。这一现象在预训练阶段即已存在，且检测能力无法通过静态角度预测可操控性。

机械可解释性（Mechanistic Interpretability）领域的一个核心愿景是实现可控性（Controllability）。其基本逻辑假设是：如果我们能够精确定位模型激活中某种行为或特征的表示位置，我们就应该有能力通过修改这些激活来改变该行为。

然而，这一愿景建立在一个隐蔽的几何前提之上：即检测（Detection）某种行为的方向，与控制（Control/Intervention）该行为的方向，应当是相同的，或者至少非常接近。如果检测意味着控制，那么这两个方向在向量空间中的夹角余弦值（cosine similarity）应接近 1。

本文旨在通过几何视角检验这一前提。作者提出，如果检测并不必然导致控制，那么“检测方向”与“干预方向”之间的夹角余弦值就可以量化这种“检测-干预差距”（detection-intervention gap）。

研究团队在 Gemma 2-2B-it 模型上进行了实验，对比了两种不同性质的行为：输出格式（如干净的 JSON 与 Markdown 围栏）和幻觉（Hallucination）。

1. 输出格式：检测即控制 对于输出格式这一行为，模型将其检测方向与控制方向坍缩到了同一个轴上。这意味着，能够完美识别模型是否输出 JSON 的激活方向，也正是能够引导模型输出 JSON 的方向。在这种情况下，检测确实隐含了控制。

2. 幻觉：检测与控制分离 对于幻觉行为，情况则截然不同。研究发现：

完美检测：模型从第 5 层开始，就能以完美的线性可分性（AUC = 1.000）检测出虚假实体。
控制失效：然而，用于“检测”虚假实体的方向，与用于产生“拒绝回答”（refusal，即控制幻觉）的方向之间，夹角余弦值仅为 0.12（约 83 度）。
无 Token 依赖：即使构建一个仅基于激活值、不依赖特定选择 Token 的检测器，其方向与干预方向的夹角余弦值依然很低（cos = -0.06）。

这表明，“检测是控制”这一假设在幻觉问题上完全失效。检测方向与干预方向几乎正交，存在巨大的几何鸿沟。

3. 泛化性与归因 这种差距具有普遍性。在来自三个不同家族、两种规模（1B-9B）的四个模型中，检测方向与控制方向的夹角余弦值始终保持在 [0.12, 0.20] 的区间内。

预训练起源：指令微调（Instruction Tuning）前后，该余弦值几乎不变（0.1197 vs 0.1200）。这说明这种“知晓”与“操控”的分离并非由对齐训练造成，而是源于预训练阶段。

4. 部分桥接与预测局限性

旋转干预：将检测方向向拒绝方向旋转 15 度，可以部分弥合这一差距。在两个保留的虚假实体类别上，这种方法以 1.8% 的误报率实现了 73% 和 60% 的拒绝率。
余弦值的局限：作者进一步探究该余弦值是否能预测模型的可操控性（steerability），结果是否定的。检测是一个高维类，而非单一方向。决定模型是否可操控的是功能性因素，而非静态的几何角度。

结论：夹角余弦值是“知晓”（knowing）与“操控”（steering）之间解耦关系的权重可计算签名（signature），但它本身并不能预测操控的成功与否。

这项研究对当前的大模型可解释性与对齐工作具有深远影响：

挑战“可解释性即可控性”的直觉：许多研究致力于定位模型内部的“概念神经元”或“特征向量”，并假设一旦定位就能进行干预。本文证明，对于复杂行为（如幻觉），定位（知晓）与控制（干预）可能是两个完全独立的过程。仅仅知道模型“知道”什么是假的，并不意味着我们能直接通过激活该方向来让它“拒绝”生成假的。
重新审视对齐策略：由于检测与控制的分离源于预训练，这意味着仅靠后训练的对齐（如 RLHF）可能无法从根本上解决这一几何鸿沟。开发者需要意识到，即使模型在内部表征上完美区分了真实与虚假，其生成机制仍可能无法通过简单的激活操纵来纠正。
方法论启示：在评估模型的可解释性时，不能仅依赖检测准确率（如 AUC）。必须同时评估干预的有效性。高检测精度并不等同于高可控性。
未来研究方向：研究重点可能需要从寻找单一的“控制方向”转向理解高维流形上的功能性映射。如何在一个高维空间中，从“检测类”映射到“控制类”，将是实现真正可控 AI 的关键挑战。