← 返回信息流
技术博客arXiv cs.AI·1 天前

分解提示词如何重塑大模型内部表征以引导行为

原标题:Decomposing how prompting steers behavior

速览

该研究提出嵌套几何分解框架,将提示词视为对内容表征几何结构的变换。通过因果测试发现,提示词一致地将模型表征重塑为符合指令任务的结构。研究表明,跨维度线性混合是提示词重组表征以实现特定行为的关键机制。

AI 深度解读

解构提示词如何引导模型行为

来源:arXiv cs.AI (Submitted on 2 Jun 2026) 标题:Decomposing how prompting steers behavior

背景

提示工程(Prompting)已成为引导大型语言模型(LLMs)和视觉语言模型(VLMs)行为的核心手段,其特点在于无需更新模型权重即可改变模型的输出表现。然而,尽管提示词在应用层面效果显著,学术界对于其底层机制的理解仍存在空白:具体的指令变化究竟是如何重塑模型内部的表征(internal representations),进而产生特定行为的?

现有的研究往往将提示词视为一种黑盒输入,缺乏对提示词如何具体改变数据在模型高维空间中几何结构的深入剖析。为了填补这一认知鸿沟,研究人员提出了一种嵌套几何分解框架,旨在从几何变换的角度量化并解构提示词对模型内部状态的影响。

核心内容

该研究引入了一种嵌套几何分解框架(nested geometric decomposition framework),将提示词视为对提示后内容表征几何结构的变换。研究团队通过以下逻辑严密地验证了这一假设:

1. 定义变换层级 对于每一对提示词(Prompt A 和 Prompt B),研究人员使用表达能力递增的“刺激不变映射”(stimulus-invariant maps)来对齐同一刺激在两种不同提示下的表征。这些映射层级从简单到复杂依次为:

  • 平移(Translation)
  • 带均匀缩放的刚性变换(Rigid transformation with uniform scaling)
  • 序列轴缩放(Sequential axis scaling)
  • 仿射变换(Affine transformation)
  • 非线性变换(Nonlinear transformation)

2. 因果测试方法 为了验证每种映射的有效性,研究采用了因果测试(causal testing)方法。具体操作是:替换模型中单个层的隐藏状态(hidden state)。即,对于保留的测试刺激(held-out stimuli),将提示 A 下的隐藏状态替换为经过上述映射转换后的对应状态,然后测量这种替换是否能恢复提示 B 下的表征几何结构以及相应的行为表现。

3. 实验范围与对象 实验涵盖了三个 LLMs、三个 VLMs,以及六个涵盖风格、情感、场景内容和数字的文本或图像数据集。

4. 主要发现

  • 普遍性重塑:在所有测试中,提示词一致地将模型的表征重塑为指向所指示任务的结构。
  • 方差分解结果:交叉验证的方差分解显示,由提示词引发的激活变化中,很大一部分可以通过保持形状的映射(特别是平移和带均匀缩放的刚性变换)来捕捉。
  • 层级配置文件:不同模型和任务在不同层级展现出特定的路由策略。
  • 关键突破点:虽然平移和刚性变换层级已经提高了行为的一致性,但**仿射变换(Affine transformation)**是第一个几乎完全恢复目标提示词任务几何结构并带来相应行为增益的层级。

这一发现表明,跨维度的线性混合(cross-dimensional linear mixing)是提示词将表征重组为指示任务结构的关键机制。该框架成功将提示词引发的表征变化分解为可解释的几何组件,揭示了模型如何通过路由任务相关结构来产生由提示驱动的行为。

关键要点

  • 几何视角的创新:研究不再仅关注提示词的语义内容,而是将其建模为对模型内部高维表征几何结构的数学变换。
  • 变换层级的递进验证:通过从简单的平移、刚性变换到复杂的仿射及非线性变换,量化了提示词影响力的复杂程度。
  • 仿射变换的关键作用:实验证实,仅靠简单的位移或旋转(平移/刚性变换)不足以完全复现目标行为,必须引入跨维度的线性混合(即仿射变换)才能近乎完美地恢复目标提示词下的任务几何结构。
  • 因果干预的有效性:通过替换单个层的隐藏状态进行因果测试,证明了这种几何变换不仅仅是相关性,而是直接导致行为变化的因果机制。
  • 模型与任务的异质性:虽然总体规律一致,但不同模型架构和不同任务类型(如风格迁移 vs. 情感分析)在层级间的路由策略上存在显著差异。

意义与影响

这项研究为理解大模型的内部运作机制提供了新的理论工具和分析框架。其意义主要体现在以下几个方面:

  1. 可解释性提升:通过将抽象的“提示效果”分解为具体的几何变换组件,研究人员和工程师可以更直观地理解模型是如何响应指令的。例如,如果某个任务主要依赖平移,说明提示词主要改变了激活的基准位置;如果依赖仿射变换,则说明提示词改变了特征之间的线性组合关系。
  2. 提示工程优化:理解提示词通过“跨维度线性混合”来重组表征,有助于设计更高效的提示策略。开发者可能不再需要依赖复杂的自然语言描述,而是可以通过微调输入嵌入的几何属性来引导模型行为。
  3. 模型架构改进:揭示不同层级具有不同的路由策略,可能为模型架构的设计提供启示。例如,是否可以在特定层级引入更灵活的线性混合机制,以增强模型对提示词的响应能力?
  4. 通用性验证:该框架在 LLMs 和 VLMs 中均适用,表明这种几何分解方法具有跨模态的通用性,为多模态大模型的统一理解提供了基础。

总之,该工作不仅解答了“提示词如何起作用”这一基础科学问题,也为未来开发更可控、更可解释的生成式 AI 系统奠定了理论基础。

查看原文 →arxiv.org