技术博客arXiv cs.AI·3 小时前

人类遇错放弃，推理模型遇错纠缠：区分难度感知与 deliberation 分配

原标题：Humans Disengage, Reasoning Models Persist: Separating Difficulty Registration from Deliberation Allocation

速览

最新研究对比了大型推理模型（LRMs）与人类在解决难题时的行为模式。虽然两者在跨题目层面都表现出难度越高耗时越长的相似性，但在单题内部存在显著分歧：模型在答错时往往生成更长的推理链，而人类则倾向于放弃。这一发现表明，当前基于长度的评估指标可能掩盖了模型在不确定性下的无效计算，揭示了其与人类认知策略的根本不同。

AI 深度解读

人类放弃，推理模型坚持：区分难度感知与 deliberation 分配

背景

大型推理模型（Large Reasoning Models, LRMs）在处理更复杂的问题时，往往会消耗更多的计算资源（表现为更长的输出 token 数或更长的思考时间），这一点与人类的行为模式在表面上高度相似。这种“越难越慢”的现象长期以来被视作模型具备类人推理能力或至少具备理性资源分配能力的证据。

然而，这种基于跨样本（cross-item）层面的宏观相关性掩盖了微观层面的本质差异。现有的评估指标通常只关注模型整体在难题上花费更多时间这一现象，却忽略了当固定具体问题（item identity）时，模型在“答对”与“答错”两种情况下资源分配策略的根本不同。本文旨在揭示这一被忽视的差异，并探讨其背后的认知机制与算法逻辑。

核心内容

本研究通过分离“难度感知”（Difficulty Registration）与“ deliberation 分配”（Deliberation Allocation）两个层面，深入分析了人类与大型推理模型在解决难题时的行为差异。

1. 概念定义与分离

难度感知（Registration）：指响应时间（或 token 消耗量）如何随问题难度的增加而变化。这是一个跨样本的统计关联。
deliberation 分配（Allocation）：在固定具体问题（即控制问题难度不变）的前提下，智能体在其自身“失败”与“成功”的尝试中，是否分配了更多的思考资源。这是一个个体内部的微观行为模式。

2. 实验设计与数据

研究团队使用了一个公开的人类与 LRMs 匹配语料库，涵盖了五种具备“思考”能力的大型推理模型。为了排除不同智能体之间尺度差异（如人类以秒计，模型以 token 计）带来的干扰，所有比较均在每个智能体自身的尺度内部进行，从未将秒与 token 直接放在同一轴线上对比。

3. 核心发现：宏观相似，微观相反

宏观层面（难度感知）：人类和所有五种思考型 LRMs 都复现了已知的跨样本一致性——即随着问题难度增加，两者的响应时间/Token 消耗量均显著增加。这使得它们在传统评估指标下看起来是“对齐”的。
微观层面（deliberation 分配）：在固定问题身份后，人类与模型表现出截然相反的模式：
- 人类模式：在答对的尝试中花费更多时间，在答错的尝试中花费更少时间。
- 模型模式：在答错的尝试中花费更多 Token，在答对的尝试中花费更少 Token。
- 统计显著性：在 H-ARC 数据集上，LRMs 表现出的“错误 vs 正确”效应量极大（Cohen's d = 1.47-3.13），而人类则呈现相反的符号。

4. 稳健性检验

这种分离现象在引入项目固定效应（item fixed effects）后依然成立，并在多个数据集中得到复现。值得注意的是，这种差异在非思考型（non-thinking）基线模型中并不存在，说明这是“思考”机制特有的行为特征。

5. 机制解读

人类：参与度 vs 放弃（Engagement vs. Abandonment） 人类的行为模式被解读为一种基于预期的策略：人们倾向于在那些他们预期能够解决的问题上投入更多精力（Stay engaged），而在那些他们认为无法解决或难度过高的问题上选择放弃（Give up）。因此，成功的尝试往往伴随着更高的投入，而失败的尝试往往伴随着早期的退出或低投入。
模型：长度驱动的不确定性（Length-driven Uncertainty） 模型的行为模式被解读为由不确定性驱动的链式增长（Chain growth）：当模型对答案不确定时，它会生成更长的推理链（Chains grow）。然而，这种不确定性恰好是模型倾向于失败的时刻。因此，模型在失败时花费更多资源，是因为它在“挣扎”中寻找答案，而这种挣扎往往以失败告终。

6. 理论启示：资源理性元推理（Resource-Rational Metareasoning）

从资源理性的元推理角度来看，这种分裂源于两种共享相同“难度信号”但实施相反“控制策略”的停止策略（Stopping Policies）。

当前的追踪长度（Trace Length）指标仅仅捕捉到了“难度信号”，却遗漏了关键的“控制逻辑”。
人类和模型都根据难度调整资源，但人类在预期成功时增加资源，模型在预期失败（高不确定性）时增加资源。

关键要点

表面相似性的陷阱：大型推理模型（LRMs）和人类在“难题耗时更长”这一宏观统计特征上高度一致，但这并不能证明两者的推理机制相同。
微观行为的对立：在固定具体问题的情况下，人类在答对时投入更多，答错时投入更少；而 LRMs 在答错时投入更多（Token 更长），答对时投入更少。
效应量巨大：LRMs 的这种反向模式具有极高的统计显著性（Cohen's d 高达 1.47-3.13），并非噪声。
机制差异：
- 人类策略：预期驱动。基于对解决能力的信心，在有望成功的任务上持续投入，在无望任务上放弃。
- 模型策略：不确定性驱动。模型在不确定时延长推理链，而高不确定性通常关联着错误，导致“失败时更长”。
评估指标的局限：现有的基于“追踪长度与难度相关性”的评估指标存在盲区，因为它无法区分“难度信号”与“控制策略”，从而错误地将两种截然不同的策略视为对齐。
基线对比：这种差异仅存在于具备“思考”能力的 LRMs 中，非思考型基线模型未表现出此现象，表明这是推理过程特有的属性。

意义与影响

1. 对 AI 对齐（AI Alignment）的重新审视

这项研究挑战了当前 AI 对齐领域中一个常见的假设：即模型在资源分配上表现出的“类人”宏观特征足以证明其具备类人的认知或理性。研究指出，如果仅依赖跨样本的难度-时间相关性，我们会严重误判模型的内部状态。真正的对齐需要深入到微观的决策逻辑层面，而不仅仅是宏观的行为拟合。

2. 改进推理模型的评估体系

当前的评估指标（如基于 token 数量或推理步数的指标）可能具有误导性。未来的评估框架需要引入“条件资源分配”分析，即在控制问题难度的前提下，分析模型在成功与失败案例中的资源分布。这有助于更准确地诊断模型的“元认知”能力——即模型是否真正理解自己的不确定性，还是仅仅在盲目地延长输出。

3. 理解大型推理模型的局限性

研究揭示了当前思维链（Chain-of-Thought）或推理模型的一个潜在缺陷：它们缺乏人类那种“战略性放弃”或“基于信心的坚持”的能力。模型倾向于在错误的路径上不断追加成本（延长 token 序列），而不是像人类一样及时止损或基于信心集中火力。这对于设计更高效的推理算法具有指导意义——理想的推理模型应当能够区分“探索性延长”与“无效挣扎”，并在高不确定性且低成功率时具备更智能的停止或重定向机制。

4. 认知科学与 AI 的交叉洞察

该研究为比较认知科学提供了新的量化视角。它表明，虽然人类和 AI 都遵循“资源理性”的大原则（根据难度分配资源），但具体的启发式策略（Heuristics）截然不同。理解这些差异有助于我们更好地构建符合人类直觉或超越人类局限的新型 AI 架构。

查看原文 →arxiv.org