技术博客arXiv cs.CL·2 小时前

Transformer模型心智推理能力发展轨迹与脆弱性揭示

原标题：Developmental Trajectories of Situation Modeling and Mentalizing in Transformer Language Models

速览

本文从发展视角追踪Olmo2和Pythia模型在预训练及后训练阶段的心智状态推理行为。研究发现，大模型具备情境建模能力且先于心智推理出现，但后者表现脆弱，易受非事实动词干扰。结果强调需通过发展性和压力测试方法评估大模型真实能力。

AI 深度解读

Transformer 语言模型中情境建模与心理化能力的发育轨迹

背景

近年来，关于大型语言模型（LLMs）是否具备理解他人信念状态能力的讨论日益激烈。传统的评估手段通常采用“错误信念任务”（False Belief Task, FBT），这是一种在心理学中用于测试主体是否理解他人可能拥有与事实不符的信念的经典范式。尽管近期研究表明 LLMs 在 FBT 中表现出高于随机猜测的性能，但学术界对于这种表现是否真正反映了模型对“心理状态”的理解，即“构念效度”（construct validity），仍存有持续的疑虑。

为了深入探究这一问题，研究者不再仅仅关注模型在单一测试中的得分，而是引入发育视角（developmental perspective）。该视角旨在追踪语言模型在多个训练阶段中，心理状态推理行为及其潜在先决条件的出现模式。本研究选取了 Olmo2 和 Pythia 两个语言模型套件作为观察对象，试图厘清模型能力发展的时序性和脆弱性。

核心内容

本研究通过系统性地分析模型在预训练、监督微调（SFT）及直接偏好优化（DPO）等不同阶段的表现，揭示了情境建模（Situation Modeling）与心理化（Mentalizing）能力的发展轨迹。

1. 错误信念任务（FBT）表现的决定因素 研究发现，模型在 FBT 中取得高于随机水平的表现，并非一蹴而就，而是依赖于两个关键条件：模型规模和充足的训练量。这种能力在预训练阶段的后期才相对 emerge（显现）。值得注意的是，尽管预训练奠定了基础，但模型在心理化任务上的表现提升，主要得益于后训练干预措施，特别是 SFT 和 DPO 阶段。在最具诊断性的心理化条件——“错误信念-隐性”（False Belief, Implicit）条件下，后训练干预带来的改善最为显著。

2. 心理化能力的脆弱性与干扰因素 尽管模型展现出一定的心理化能力，但这种能力非常脆弱。研究复现并确认了过往工作中的发现：当文本中使用非事实性动词（non-factive verbs，如“认为”、“想”）时，即使在“真实信念”（True Belief）条件下，模型也会错误地归因于主体持有错误信念。这表明模型对语言线索的敏感度可能超过了其对逻辑事实的遵循能力。

3. 情境建模的先行性与不连贯性 为了将上述发现置于更广阔的背景下，研究追踪了情境建模能力的出现。情境建模被定义为报告所描述场景基本事实属性的能力。数据显示，情境建模的准确性通常先于并高于 FBT 的准确性，这意味着模型先学会了“发生了什么”，然后才尝试推断“谁知道了什么”。

然而，情境表征在某些方面表现出惊人的不连贯性。以 Olmo2 13b 模型为例，当被问及“反派角色”（Antagonist agent，该角色始终知道物品的真实位置）的知识状态时，模型的判断受到了严重干扰：它不仅受到目标角色（Target agent）知识状态的影响，还受到非事实性动词存在的强烈影响。这说明模型构建的情境模型是部分连贯的，且在处理复杂视角转换时容易出错。

关键要点

发育时序性：心理状态推理能力在预训练后期才显现，且高度依赖模型规模和训练数据量。
后训练的关键作用：SFT 和 DPO 等后训练阶段对提升模型在最具挑战性的心理化条件（False Belief, Implicit）下的表现至关重要。
能力脆弱性：模型对非事实性动词（如“think”）异常敏感，这会导致在真实信念情境下产生错误的信念归因，显示出逻辑推理与语言线索处理之间的冲突。
情境建模优先：基础的事实性情境建模能力通常先于复杂的心理化能力发展，且准确率更高。
表征的不连贯性：即使是较大规模的模型（如 Olmo2 13b），其构建的情境模型也存在缺陷。在涉及多主体知识状态推断时，模型容易混淆不同主体的视角，并受到语言形式的过度干扰。
评估方法的启示：结果强调了采用发育视角和压力测试（stress-testing）方法评估 LLM 能力的重要性，仅看最终准确率可能掩盖模型内部推理过程的脆弱性。

意义与影响

这项研究对当前大模型能力的评估框架提出了重要挑战。它表明，虽然 LLMs 在表面上能够通过 FBT 等测试，但这并不等同于它们拥有像人类一样稳定、连贯的心理理论（Theory of Mind）。

首先，研究揭示了**“能力”与“鲁棒性”之间的差距**。模型可能在特定条件下表现出智能行为，但在面对细微的语言变化或复杂的多主体情境时，其表现会迅速退化。这对于依赖 LLMs 进行高风险决策（如医疗诊断、法律咨询或人机协作）的应用场景构成了潜在风险。

其次，发育视角为模型改进提供了新的方向。既然 SFT 和 DPO 对心理化能力有显著提升，未来的模型训练应更加注重后训练阶段的数据质量和指令设计，特别是针对多主体视角转换和非事实性语言结构的专门训练。

最后，该研究呼吁学术界和工业界在评估 LLMs 时，不应仅满足于静态的基准测试分数，而应引入更动态、更细致的压力测试和过程追踪方法。只有深入理解模型能力发展的轨迹及其局限性，才能更准确地界定当前 AI 系统的真实智能水平，避免过度解读模型在简单任务上的表现。

查看原文 →arxiv.org