技术博客arXiv cs.AI·1 天前

Search for Truth from Reasoning: A Dynamic Representation Editing Framework for Steering LLM Trajectories

AI 深度解读

背景

当前提升大语言模型（LLM）推理能力的主流方法，如 Chain-of-Thought（CoT）和"Wait"提示，本质上都是在鼓励模型"想得更多"。然而，这些方法往往只能增加推理的长度，却无法有效引导模型走向 Truth（真相/正确性）。与此同时，Representation Editing（RepE，表征编辑）技术虽然提供了一种从模型内部表征层面进行内在控制的可能，但其在动态推理轨迹上的应用仍处于空白。如何在推理链逐步展开的过程中，精准干预模型的内部表征以引导其走向正确轨迹，成为了一个亟待解决的关键问题。

核心内容

本文针对动态推理轨迹中的表征编辑展开研究，旨在从推理过程中探寻真相。作者首先深入探究了推理链展开过程中 Truth 的几何结构，并得出了三个关键发现：

Truth 的编码与纠缠特性：Truth 是在句子级别被编码的，并且与潜在的推理模式相互纠缠。这意味着简单的全局干预难以奏效，必须深入到具体的推理结构中。
干预的不确定性原理与衰减效应：有效的干预并非随时可行，而是遵循类似不确定性原理的规律，并存在衰减效应。这要求干预必须精准定位在推理早期的高熵分叉点，一旦错过最佳时机，干预效果将大打折扣。
朴素引导向量的噪声问题：直接使用朴素的引导向量会引入大量噪声，在试图纠正错误轨迹的同时，极易对正确的推理轨迹造成附带损害。

基于上述发现，作者提出了 DynaSteer——一种动态的 RepE 框架。该框架的核心机制包含三个部分：

模式聚类：用于解缠复杂的推理流形，厘清不同的推理模式；
Fisher-LDA 投影：利用 Fisher 线性判别分析来投影并纯化 Truth 向量，消除朴素向量中的噪声；
前瞻熵动态监控：通过动态监控前瞻熵，仅在必要时对轨迹进行选择性引导或回滚，从而实现对推理过程的精准、无损干预。

实验结果表明，DynaSteer 在多个 MATH 基准测试上验证了其有效性；同时，在域外（Out-of-domain）编码任务上的实验进一步证实了该框架具有良好的泛化能力。

关键

查看原文 →arxiv.org

Search for Truth from Reasoning: A Dynamic Representation Editing Framework for Steering LLM Trajectories

AI 深度解读

背景

核心内容

关键

相关推荐