← 返回信息流
技术博客arXiv cs.CL·4 小时前

大模型潜在思维四大公理:表征缺陷揭示评估盲区

原标题:Formalizing Latent Thoughts: Four Axioms of Thought Representation in LLMs

速览

研究提出大模型潜在思维表征的四大公理评估框架,包含因果性、最小性、可分离性和稳定性。该框架独立于下游基准分数,能揭示被准确率掩盖的表征失败问题。审计显示,现有模型无法同时满足所有公理,且表征信息量未超越输入嵌入,表明缺陷源于结构而非规模或训练方式。

AI 深度解读

Formalizing Latent Thoughts: Four Axioms of Thought Representation in LLMs

背景

在大型语言模型(LLMs)的研究中,评估模型是否真正具备“推理”能力一直是一个核心难题。现有的评估体系主要依赖于下游基准测试(Downstream Benchmarks)的准确率,例如模型在数学解题、事实问答或空间推理任务上的最终输出是否正确。

然而,这种评估方式存在一个根本性的缺陷:它混淆了“表示质量”(Representation Quality)与“模型容量”(Model Capacity)。如果一个模型在基准测试中表现不佳,我们往往无法判断这是因为模型内部对问题的潜在思维表示(Latent Thought Representations)本身存在缺陷,还是因为模型处理这些表示的解码或生成能力不足。换句话说,现有的评估掩盖了表示层面的失败,使得研究者难以区分是“想错了”还是“说错了”。

为了解决这一归因难题,研究人员提出了一种公理化评估框架,旨在独立于下游基准分数,直接对模型内部的潜在思维表示进行量化评估。

核心内容

本文提出了一套针对 LLMs 中潜在思维表示的公理化评估框架。该框架的核心在于定义并量化四个功能公理(Functional Axioms),从而揭示那些被传统基准准确率所掩盖的表示层失败。

1. 四大公理定义

研究形式化了以下四个公理,并定义了可以直接在表示层计算、独立于下游准确率的定量度量指标:

  • 因果性(Causality): 潜在思维表示必须对最终的推理结果具有因果影响。如果改变表示,推理结果应当随之改变;反之,如果表示不变,结果应保持稳定。这确保了表示不仅仅是噪声,而是驱动推理的关键因素。

  • 最小性(Minimality): 表示应当包含完成任务所需的最少信息量,去除冗余。理想的表示应当剔除输入中无关的噪声,只保留与推理逻辑紧密相关的核心要素。

  • 可分离性(Separability): 不同的思维状态或推理步骤应当在表示空间中具有清晰的界限。这意味着模型能够区分不同的逻辑路径或任务类型,避免混淆。

  • 稳定性(Stability): 对于相同或语义等价的问题,无论输入措辞如何微调,其潜在思维表示应当保持相对稳定。这反映了模型对语义本质的把握,而非对表面形式的过拟合。

2. 实验设计与审计

为了验证这些公理,研究团队对多个开源权重(Open-weight)LLM 进行了全面审计,涵盖了 23 个推理任务,包括空间推理(Spatial Reasoning)和事实问答(Factual QA)等。审计对象包括不同架构和训练策略的模型家族:

  • 密集模型(Dense models)
  • 推理蒸馏模型(Reasoning-distilled models)
  • 强化学习训练模型(RL-trained models)

3. 主要发现

审计结果揭示了当前 LLMs 在潜在思维表示层面的结构性局限:

  • 无一满足所有公理:没有任何一个候选模型能够同时满足上述四个公理。这表明现有的模型架构在表示层存在固有的权衡或缺陷。
  • 任务类型区分可靠,但实例区分失败:模型表示能够可靠地区分不同的任务类型(例如,区分“数学题”和“历史题”),但无法区分同一任务内的两个不同问题(例如,区分两道不同的数学题)。这意味着表示缺乏足够的细粒度特异性。
  • 信息增益极低:潜在思维表示中编码的信息量极少,几乎不包含超出输入嵌入(Input Embedding)本身所携带的信息。换句话说,模型在中间层并没有“提炼”出新的、更高级的逻辑结构,只是对输入进行了某种形式的保留或轻微变换。

关键要点

  • 评估范式转移:传统的基准准确率评估无法区分“表示缺陷”与“生成缺陷”。本文提出的公理化框架允许直接评估中间表示的质量,实现了评估维度的解耦。
  • 结构性而非训练性缺陷:无论模型是密集架构、经过推理蒸馏还是经过强化学习训练,上述失败模式是一致的。这表明当前 LLMs 在潜在思维表示上的不足是结构性的(Structural),而非由模型大小或特定训练程序(如 RLHF)决定的。
  • 表示的冗余性:当前模型的潜在思维表示并未有效压缩或提炼信息,其信息含量与原始输入嵌入高度重叠,未能体现出深层推理所需的抽象能力。
  • 细粒度区分能力缺失:模型能够识别“这是什么类型的问题”,但无法在“同类问题”之间建立独特的思维轨迹,导致其在处理相似但不同的推理任务时缺乏特异性。

意义与影响

这项研究对 LLM 的发展具有深远的理论和实践意义:

  1. 重新定义“推理”的内部机制: 研究结果挑战了当前关于 LLMs 具备复杂内部推理过程的假设。如果潜在表示不包含超出输入的新信息,那么所谓的“思维链”(Chain of Thought)可能更多是生成过程中的幻觉或表面模仿,而非真正的内部状态演变。

  2. 指导模型架构创新: 既然失败是结构性的,未来的模型架构设计需要专注于改进中间表示的机制。例如,可能需要引入更明确的注意力机制、记忆模块或符号推理组件,以增强表示的最小性可分离性,确保中间状态确实承载了推理所需的逻辑增量。

  3. 优化评估体系: 对于研究人员和工程师而言,仅关注最终准确率已不足以诊断模型问题。引入基于公理的表示层评估,可以帮助更精准地定位模型瓶颈——是表示层无法捕捉逻辑,还是解码层无法执行逻辑。

  4. 对强化学习和蒸馏的反思: 尽管 RL 和蒸馏技术在提升基准分数上非常有效,但本文指出它们并未解决表示层的根本缺陷。这意味着,单纯依靠外部奖励信号或数据蒸馏,无法让模型真正学会“思考”,必须从表示学习的底层逻辑入手。

总之,这篇论文通过严谨的公理化分析,揭示了当前 LLMs 在“思考”过程中的内在空洞,为下一代具备真正推理能力的模型设计指明了方向:即必须构建能够独立于输入、具备高区分度和因果效力的潜在表示机制。

查看原文 →arxiv.org