← 返回信息流
技术博客arXiv cs.AI·2 小时前

扩散语言模型内部隐含时序信号 模型能自行理解去噪过程

原标题:Subliminal Clocks: Latent Time Modelling in Diffusion Language Models

速览

扩散语言模型(DLMs)近期成为自回归模型的有力替代品。本文发现DLMs在残差流中编码了与去噪时间步相关的隐含表示。这种信号可可靠提取且可用于下游任务。研究进一步证明沿低维子空间引导模型能系统调节去噪进度,引发置信度和熵的可预测变化。分析显示该表示在激活空间具有结构化解释性,为理解这些模型如何处理时间信号提供了新视角。

AI 深度解读

背景

近年来,扩散语言模型(Diffusion Language Models, DLMs)作为自回归模型(Autoregressive Models)的一种有前景的替代方案被提出。与标准的基于扩散的方法不同,DLMs 在生成过程中并不显式地依赖时间步(timestep)作为条件输入。这种设计引出了一个自然的科学问题:这些模型内部是否能够隐式地表征去噪进度(denoising progress),以及这种内部表示如何被下游任务利用?

核心内容

Diffusion Language Models(DLMs)作为自回归模型(Autoregressive Models)的一种新兴替代方案,具有潜在优势。与传统的基于扩散的方法不同,DLMs 的生成过程并不明确地被时间步(timestep)条件化,这引发了一个核心的开放性问题:这些模型是否在内部隐式地编码了去噪进度的表征,以及这种表征是如何被下游任务利用的。

在这项工作中,研究人员展示了 DLMs 确实在它们的残差流(residual streams)中编码了与扩散时间步(diffusion timestep)相关的隐表示(latent representation)。研究发现,这种信号可以通过跨层的探针(probes)可靠地提取,这表明去噪进度信息是可以从模型的内部激活(internal activations)中解码(decodable)的。

研究人员进一步演示了,通过沿着与推断出的时间步(inferred timestep)相关的一个低维子空间(low-dimensional subspace)对模型进行引导(steering),可以系统地调节模型对去噪进度的理解。这种调节导致了模型的置信度(confidence)和熵(entropy)产生可预测的变化。

最后,研究人员分析了所识别表示的几何性质(geometry),结果表明该表示在激活空间中具有结构化和可解释的特性(structured and interpretable properties),从而揭示了此类信号是如何被这些模型处理的。

关键要点

  • Diffusion Language Models(DLMs)并不显式依赖 timestep 作为条件,与传统扩散方法形成对比。
  • DLMs 在残差流中隐式编码了与扩散时间步相关的表征,这种信号可通过跨层探针可靠提取,表明去噪进度是可解码的。
  • 通过沿低维子空间对模型进行引导,可系统调节对去噪进度的理解,导致置信度和熵产生可预测变化。
  • 该表示在激活空间中表现出结构化和可解释的几何性质。

意义与影响

该研究首次系统性地证明了 DLMs 能够内部表征去噪进度,并揭示了这种隐表示的可访问性和可控性。这不仅深化了对扩散语言模型机制的理解,还为后续工作提供了新的技术路径。例如,通过引导机制来精细控制模型的生成行为,不仅可能提升模型的可解释性和可信度,还可能在实际应用中实现更精细的控制(如动态调节采样策略或生成质量)。同时,研究还进一步阐明了这些隐表示在激活空间中的结构特征,这为设计更高效的模型架构和训练方法打开了新的可能性,具有重要的理论价值和潜在的实用意义。

查看原文 →arxiv.org