技术博客arXiv cs.AI·2 小时前

Goggles：通过梯度编辑为语言模型注入认知框架

原标题：Epistemic Goggles: A Pretrained Module that Induces an Epistemic Frame via Gradient Editing

速览

Goggles是一种通过梯度编辑的模块，在监督微调时干预LLM LoRA接收的梯度，为模型注入特定认知框架，如将内容视为虚构而非真实。训练一次后冻结应用于未见过的数据，可使模型正确识别虚构内容达91%，同时保留GPQA和TruthfulQA等能力。框架在持续微调中可持久化或被推回。该技术为在对齐数据上训练模型提供新路径，避免吸收有害行为。

AI 深度解读

背景

语言模型在预训练后，其内部知识往往被视为真实且不可辩驳的信念。即使后续通过监督微调接收到明确标注为虚构的文档，模型仍然倾向于将文档的核心主张视为真实事实，这一现象被称为“否定忽视”（Negation Neglect）。在对模型进行监督微调时，标注为虚构的文档前缀和后缀（如“这是虚构的”）仅能让模型在约9%的情况下正确识别相关主张为虚构内容。

为了解决这一问题，研究者引入了Goggles——一个经过预训练的模块。该模块在监督微调过程中，对语言模型LoRA接收到的梯度进行干预，而非直接修改输入数据。它通过编辑梯度，向模型灌输一种选定的认知框架（epistemic frame），即模型对待所读内容的本体态度或立场。这种框架能够覆盖模型从文档中学到的任何内容，无论文档本身是否被标注为虚构。

核心内容

Goggles模块的工作原理如下：在监督微调阶段，Goggles会针对给定的基础模型、待灌输的认知框架以及LoRA配置，对一个实例进行预训练。一旦训练完成，该模块即被冻结（保持不变），并应用于任何未被其训练过的文档。

当使用经过Goggles训练的模块处理同一份文档时，该文档不再携带任何虚构标注，模型能够将内容判定为虚构的准确率提升至约91%。同时，模型的原有能力得到有效保留：GPQA基准和TruthfulQA基准的表现与原始基线相当或更优。

该架构同样支持其他认知框架。例如，一个Goggles实例可被训练为将文档视为“Redwood Research的AI安全评估的一部分”，而非单纯的虚构内容。这种框架的注入具有持久性：在后续的持续微调中，即使尝试通过推回主张（pushing back toward the claim）的方式来消除该框架的影响，Goggles此前注入的干预仍然有效，能够让模型保持对内容的虚构态度的判断。

Goggles的设计为训练语言模型提供了新路径：允许模型在接触到已知被误导或不一致的数据时，吸收数据所演示的行为模式，而不会被数据本身所强加的认知偏差所吸收。

关键要点

否定忽视现象普遍存在：模型即使接收到明确标注为虚构的文档，仍无法有效识别约91%的相关主张为虚构（仅9%识别率）。
Goggles的核心机制是通过梯度编辑实现认知框架注入，而非数据标注：它干预LoRA梯度，赋予模型对待内容的本体态度（epistemic frame）。
Goggles实例具有一次训练、多次应用特性：针对基础模型、框架和LoRA配置预训练一次后，冻结模块即可应用于未见过的数据。
框架注入效果显著且持久：无标注文档下虚构识别率提升至91%，GPQA和TruthfulQA能力保持或提升。
框架支持灵活性高：可训练为不同本体姿态（如“Redwood Research的AI安全评估”而非单纯虚构）。
干预效果逆转性：后续推回主张的持续微调无法消除Goggles注入的框架，模型仍能维持虚构态度的判断。

意义与影响

Goggles为解决语言模型在处理虚构、误导或已知不一致数据时的认知偏差问题提供了可操作的解决方案。它允许研究人员和开发者在无需对文档进行复杂标注的情况下，强制模型建立并维持特定的认知框架（如对虚构内容的清醒识别），同时保留模型的原生知识获取和推理能力。

这一技术突破的深远影响在于：它为构建更可靠、自主学习的大型语言模型打开了新路径。尤其在AI安全评估、内容验证、科学文献处理以及多模态知识整合等场景中，Goggles能够帮助模型避免被表面真实性掩盖的误导信息所同化，显著降低潜在的幻觉风险和信念污染。

从长远看，Goggles的框架注入机制可能成为训练语言模型时的一种标准“认知护目镜”组件，帮助模型在真实世界中持续学习而不被数据表面所误导。它还为理解语言模型的“信念形成机制”提供了新实验工具，推动认知科学与AI的跨领域融合。未来，随着更多框架被纳入Goggles架构，该技术有望成为AI训练范式的重要演进方向，为可解释性更强、风险可控的智能系统奠定基础。

查看原文 →arxiv.org

Goggles：通过梯度编辑为语言模型注入认知框架

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐