技术博客arXiv cs.CL·4 小时前

大模型潜在思维四大公理：表征缺陷揭示评估盲区

原标题：Formalizing Latent Thoughts: Four Axioms of Thought Representation in LLMs

速览

研究提出大模型潜在思维表征的四大公理评估框架，包含因果性、最小性、可分离性和稳定性。该框架独立于下游基准分数，能揭示被准确率掩盖的表征失败问题。审计显示，现有模型无法同时满足所有公理，且表征信息量未超越输入嵌入，表明缺陷源于结构而非规模或训练方式。

AI 深度解读

Formalizing Latent Thoughts: Four Axioms of Thought Representation in LLMs

背景

在大型语言模型（LLMs）的研究中，评估模型是否真正具备“推理”能力一直是一个核心难题。现有的评估体系主要依赖于下游基准测试（Downstream Benchmarks）的准确率，例如模型在数学解题、事实问答或空间推理任务上的最终输出是否正确。

然而，这种评估方式存在一个根本性的缺陷：它混淆了“表示质量”（Representation Quality）与“模型容量”（Model Capacity）。如果一个模型在基准测试中表现不佳，我们往往无法判断这是因为模型内部对问题的潜在思维表示（Latent Thought Representations）本身存在缺陷，还是因为模型处理这些表示的解码或生成能力不足。换句话说，现有的评估掩盖了表示层面的失败，使得研究者难以区分是“想错了”还是“说错了”。

为了解决这一归因难题，研究人员提出了一种公理化评估框架，旨在独立于下游基准分数，直接对模型内部的潜在思维表示进行量化评估。

核心内容

本文提出了一套针对 LLMs 中潜在思维表示的公理化评估框架。该框架的核心在于定义并量化四个功能公理（Functional Axioms），从而揭示那些被传统基准准确率所掩盖的表示层失败。

1. 四大公理定义

研究形式化了以下四个公理，并定义了可以直接在表示层计算、独立于下游准确率的定量度量指标：

因果性（Causality）：潜在思维表示必须对最终的推理结果具有因果影响。如果改变表示，推理结果应当随之改变；反之，如果表示不变，结果应保持稳定。这确保了表示不仅仅是噪声，而是驱动推理的关键因素。
最小性（Minimality）：表示应当包含完成任务所需的最少信息量，去除冗余。理想的表示应当剔除输入中无关的噪声，只保留与推理逻辑紧密相关的核心要素。
可分离性（Separability）：不同的思维状态或推理步骤应当在表示空间中具有清晰的界限。这意味着模型能够区分不同的逻辑路径或任务类型，避免混淆。
稳定性（Stability）：对于相同或语义等价的问题，无论输入措辞如何微调，其潜在思维表示应当保持相对稳定。这反映了模型对语义本质的把握，而非对表面形式的过拟合。

2. 实验设计与审计

为了验证这些公理，研究团队对多个开源权重（Open-weight）LLM 进行了全面审计，涵盖了 23 个推理任务，包括空间推理（Spatial Reasoning）和事实问答（Factual QA）等。审计对象包括不同架构和训练策略的模型家族：

密集模型（Dense models）
推理蒸馏模型（Reasoning-distilled models）
强化学习训练模型（RL-trained models）

3. 主要发现

审计结果揭示了当前 LLMs 在潜在思维表示层面的结构性局限：

无一满足所有公理：没有任何一个候选模型能够同时满足上述四个公理。这表明现有的模型架构在表示层存在固有的权衡或缺陷。
任务类型区分可靠，但实例区分失败：模型表示能够可靠地区分不同的任务类型（例如，区分“数学题”和“历史题”），但无法区分同一任务内的两个不同问题（例如，区分两道不同的数学题）。这意味着表示缺乏足够的细粒度特异性。
信息增益极低：潜在思维表示中编码的信息量极少，几乎不包含超出输入嵌入（Input Embedding）本身所携带的信息。换句话说，模型在中间层并没有“提炼”出新的、更高级的逻辑结构，只是对输入进行了某种形式的保留或轻微变换。

关键要点

评估范式转移：传统的基准准确率评估无法区分“表示缺陷”与“生成缺陷”。本文提出的公理化框架允许直接评估中间表示的质量，实现了评估维度的解耦。
结构性而非训练性缺陷：无论模型是密集架构、经过推理蒸馏还是经过强化学习训练，上述失败模式是一致的。这表明当前 LLMs 在潜在思维表示上的不足是结构性的（Structural），而非由模型大小或特定训练程序（如 RLHF）决定的。
表示的冗余性：当前模型的潜在思维表示并未有效压缩或提炼信息，其信息含量与原始输入嵌入高度重叠，未能体现出深层推理所需的抽象能力。
细粒度区分能力缺失：模型能够识别“这是什么类型的问题”，但无法在“同类问题”之间建立独特的思维轨迹，导致其在处理相似但不同的推理任务时缺乏特异性。

意义与影响

这项研究对 LLM 的发展具有深远的理论和实践意义：

重新定义“推理”的内部机制：研究结果挑战了当前关于 LLMs 具备复杂内部推理过程的假设。如果潜在表示不包含超出输入的新信息，那么所谓的“思维链”（Chain of Thought）可能更多是生成过程中的幻觉或表面模仿，而非真正的内部状态演变。
指导模型架构创新：既然失败是结构性的，未来的模型架构设计需要专注于改进中间表示的机制。例如，可能需要引入更明确的注意力机制、记忆模块或符号推理组件，以增强表示的最小性和可分离性，确保中间状态确实承载了推理所需的逻辑增量。
优化评估体系：对于研究人员和工程师而言，仅关注最终准确率已不足以诊断模型问题。引入基于公理的表示层评估，可以帮助更精准地定位模型瓶颈——是表示层无法捕捉逻辑，还是解码层无法执行逻辑。
对强化学习和蒸馏的反思：尽管 RL 和蒸馏技术在提升基准分数上非常有效，但本文指出它们并未解决表示层的根本缺陷。这意味着，单纯依靠外部奖励信号或数据蒸馏，无法让模型真正学会“思考”，必须从表示学习的底层逻辑入手。

总之，这篇论文通过严谨的公理化分析，揭示了当前 LLMs 在“思考”过程中的内在空洞，为下一代具备真正推理能力的模型设计指明了方向：即必须构建能够独立于输入、具备高区分度和因果效力的潜在表示机制。

查看原文 →arxiv.org