技术博客arXiv cs.CL·1 天前

解码器语言模型反向还原输入文本的梯度优化研究

原标题：Recovering Input Text from Hidden States: Study of Gradient-Based Inversion of Decoder-Only Language Models

速览

该论文聚焦解码器语言模型的隐藏状态反演问题，提出在连续嵌入空间中优化软代理的方法，而非一次性硬重建。研究揭示了优化过程中的丰富内部信号，如排名轨迹、损失曲线和提交时的离散损失。结果表明，GPT-2 等模型的末层隐藏状态对原始文本敏感性极高，揭示了语言模型内部信息的强大可逆性，为理解模型机制和安全防护提供新视角。

AI 深度解读

背景

大型语言模型（LLM）的隐层（hidden states）作为模型内部的核心计算表示，已成为研究其内部机制的热点。特别是对于仅解码器（decoder-only）的语言模型，研究者们发现这些状态中包含了丰富的信息，可以用于反向推断原始输入序列。当前研究中，输入文本恢复（input text recovery）问题通常被视为单次重建任务，但现有工作大多依赖于硬令牌（hard token）投影，这在优化过程中会限制连续空间探索。本文提出了通过梯度反转（gradient-based inversion）在连续嵌入空间中优化软代理（soft proxy）的全新视角，将其作为可观察的优化过程，而非一次性投射。这使得模型的内部信号（如排名轨迹、位置损失曲线和提交时的离散损失）得以暴露，并为恢复正确性评估提供了新工具。

核心内容

本文聚焦于仅解码器语言模型的隐藏状态反转问题：从最后一层隐藏状态中恢复原始输入令牌序列，而非将其视为一次性重建任务。研究采用连续嵌入空间优化方式：通过梯度驱动软代理（soft proxy）不断逼近目标嵌入，而在搜索过程中不进行任何硬令牌投影，仅在内循环结束时提交一个令牌。

这一设计选择产生两个主要后果，构成本文核心关注点。

第一，保持优化完全在连续空间中，揭示了一套丰富的内部信号：真实令牌的排名轨迹（rank trajectories of the ground-truth token）、每个位置的损失曲线（per-position loss curves），以及提交令牌时的离散损失（discrete loss measured at commit time）。这些信号使反转过程在可观测性上显著优于传统方法。

第二，离散损失允许通过累积离散损失（cumulative discrete loss）对恢复的正确性进行精确评估。

研究还进一步分析哪些令牌会破坏恢复过程，发现存在明显的类别不对称性（categorical asymmetry）：嵌入矩阵中具有空间前缀的高频功能词（space-prefixed, high-frequency function words in dense regions of the embedding matrix）主导了失败案例，而内容承载令牌（content-bearing tokens）几乎完美恢复。

在10个令牌的C4提示（C4 prompts）上，精确匹配率从66.9%上升至97.5%，平均相似度达到0.994；随着候选窗口的扩大，错误大多是可恢复的近似匹配，而非真正歧义。

最后，本文将上述发现与已发布的SIPIT参考方法进行对比：SIPIT通过每步硬投影实现更快速度，但连续空间优化方案才是让优化过程可观察并检测失败的关键所在。结果表明，GPT-2最后一层隐藏状态的敏感度与原始文本相当。

关键要点

优化范式转变：将输入恢复从单次硬投影重构，转变为在连续嵌入空间中通过梯度驱动软代理的内循环优化过程，仅在结束时提交令牌。
可观测信号丰富：连续优化暴露真实令牌排名轨迹、每位置损失曲线及提交时离散损失，使反转过程可追踪分析。
评估机制：利用离散损失的累积值直接量化恢复正确性，而非依赖单一相似度指标。
令牌不对称性：空间前缀高频功能词主导失败，内容令牌几乎完美恢复，显示嵌入空间的非均匀分布影响恢复难度。
性能提升：在C4提示上，精确匹配率显著提高（66.9% → 97.5%），平均相似度0.994，确认多数错误为近似可恢复。
与参考对比：连续优化方案在可观察性和失败检测上优于SIPIT的硬投影方法，虽速度稍慢但更具研究价值。

意义与影响

该研究为理解仅解码器语言模型内部计算提供了新窗口，揭示最后一层隐藏状态在恢复原始输入文本上的高灵敏度，与直接文本信息相当。这一发现不仅直接验证了梯度反转技术的实用性，还通过连续空间优化的可观测性，开启了针对模型内部机制的更精细诊断途径。

在技术层面，它为反转攻击、模型蒸馏或隐私保护等领域提供了可重复验证的实验框架，凸显连续优化在暴露模型漏洞和行为上的优势。相比依赖硬投影的现有方法，本文的工作更适合研究者追踪失败原因并迭代改进，降低实际部署中的风险。

从更广视角看，研究结果加强了对大语言模型“黑箱”性质的认识，强调即使在最后一层，模型内部状态仍保留了足够信息以支持高精度恢复，进而影响数据隐私、模型安全评估及未来对抗性设计的考量。未来可基于这些内部信号开发更高效的恢复算法或防御机制，推动语言模型解释性研究向可量化、可预测方向发展。

查看原文 →arxiv.org

解码器语言模型反向还原输入文本的梯度优化研究

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐