Search for Truth from Reasoning: A Dynamic Representation Editing Framework for Steering LLM Trajectories
AI 深度解读
背景
当前提升大语言模型(LLM)推理能力的主流方法,如 Chain-of-Thought(CoT)和"Wait"提示,本质上都是在鼓励模型"想得更多"。然而,这些方法往往只能增加推理的长度,却无法有效引导模型走向 Truth(真相/正确性)。与此同时,Representation Editing(RepE,表征编辑)技术虽然提供了一种从模型内部表征层面进行内在控制的可能,但其在动态推理轨迹上的应用仍处于空白。如何在推理链逐步展开的过程中,精准干预模型的内部表征以引导其走向正确轨迹,成为了一个亟待解决的关键问题。
核心内容
本文针对动态推理轨迹中的表征编辑展开研究,旨在从推理过程中探寻真相。作者首先深入探究了推理链展开过程中 Truth 的几何结构,并得出了三个关键发现:
- Truth 的编码与纠缠特性:Truth 是在句子级别被编码的,并且与潜在的推理模式相互纠缠。这意味着简单的全局干预难以奏效,必须深入到具体的推理结构中。
- 干预的不确定性原理与衰减效应:有效的干预并非随时可行,而是遵循类似不确定性原理的规律,并存在衰减效应。这要求干预必须精准定位在推理早期的高熵分叉点,一旦错过最佳时机,干预效果将大打折扣。
- 朴素引导向量的噪声问题:直接使用朴素的引导向量会引入大量噪声,在试图纠正错误轨迹的同时,极易对正确的推理轨迹造成附带损害。
基于上述发现,作者提出了 DynaSteer——一种动态的 RepE 框架。该框架的核心机制包含三个部分:
- 模式聚类:用于解缠复杂的推理流形,厘清不同的推理模式;
- Fisher-LDA 投影:利用 Fisher 线性判别分析来投影并纯化 Truth 向量,消除朴素向量中的噪声;
- 前瞻熵动态监控:通过动态监控前瞻熵,仅在必要时对轨迹进行选择性引导或回滚,从而实现对推理过程的精准、无损干预。
实验结果表明,DynaSteer 在多个 MATH 基准测试上验证了其有效性;同时,在域外(Out-of-domain)编码任务上的实验进一步证实了该框架具有良好的泛化能力。
关键
查看原文 →arxiv.org
