技术博客arXiv cs.CL·4 小时前

LLM推理轨迹中的认知片段可解释人类题目难度预测

原标题：Cognitive Episodes in LLM Reasoning Traces Enable Interpretable Human Item Difficulty Prediction

速览

该研究提出Epi2Diff框架，将大型推理模型（LRM）的推理轨迹映射为具有认知基础的片段序列。通过提取片段动态特征并结合语义表示，该框架能有效预测人类题目难度。实验表明，该方法在多个数据集上优于现有基线，揭示了难题往往引发更费力、迭代式的认知过程。

AI 深度解读

Cognitive Episodes in LLM Reasoning Traces Enable Interpretable Human Item Difficulty Prediction

背景

在教育评估领域，准确预测“题目难度”（Item Difficulty）是核心任务之一。可靠的难度估算不仅有助于确保测试的公平性，也是构建高效、科学试卷的基础。然而，现有的难度预测方法往往存在局限性：它们通常依赖于昂贵且耗时的人工校准（Human Calibration），或者仅基于题目文本本身的语义表示（Item-level textual representations）。

这种传统视角存在一个关键缺陷：它无法提供关于“为什么题目难”的认知过程证据。题目之所以难，往往不是因为文本本身晦涩，而是因为它给解题者带来了特定的认知负荷。随着大型推理模型（Large Reasoning Models, LRMs）的兴起，虽然它们可以通过推理轨迹（Reasoning Traces）提供可扩展的过程证据，但这些非结构化的轨迹数据难以直接用于可解释的建模。因此，如何将 LRMs 产生的过程性证据转化为具有认知意义的结构化特征，从而更准确地预测人类解题难度，成为亟待解决的问题。

核心内容

为了解决上述问题，研究团队提出了 Epi2Diff（Episode to Difficulty，即“片段到难度”）框架。该框架的核心思想是将题目难度不仅仅视为题目文本的属性，更视为题目所引发的解题负担（Problem-solving burden）的可观察后果。

1. 从推理轨迹到认知片段（Cognitive Episodes）

Epi2Diff 框架首先将 LRM 的推理轨迹映射为具有认知基础的“片段序列”（Episode Sequences）。

片段定义：这些片段将推理轨迹中的片段分组为功能性的“解题状态”（Functional problem-solving states）。
认知映射：通过这种方式，模型不再仅仅关注最终答案或文本长度，而是关注解题过程中的认知状态转换。

2. 难度建模的三个维度

基于上述片段序列，Epi2Diff 通过以下三个维度对难度进行建模：

推理规模（Reasoning Scale）：解题所需的认知步骤数量。
努力分配（Effort Allocation）：在不同解题阶段投入的认知资源分布。
状态转换（State Transitions）：解题者在不同认知状态之间切换的频率和模式。

3. 特征提取与预测

Epi2Diff 提取紧凑的“片段动态特征”（Episode-dynamic features），并将这些过程特征与题目的语义表示（Semantic item representations）相结合，用于预测人类解题难度。

4. 实验验证

研究团队在四个真实的人类难度数据集上进行了实验，结果如下：

性能优势：Epi2Diff 一致地优于多种强基线模型，包括微调的小型语言模型、LLM 的上下文学习（In-context Learning）以及监督式 LLM 适配方法。
SAT 基准测试：在基于 SAT（学术能力评估测试）衍生的分类基准中，Epi2Diff 相比监督式 LLM 微调基线，实现了平均 8.1% 的相对增益。

5. 可解释性分析

进一步的分析揭示了更难题目的认知特征：

高难度题目引发的并非仅仅是更长的回答文本，而是更具费力性（Effortful）、**迭代性（Iterative）和以执行为中心（Implementation-centered）**的片段动态。
这表明，解题过程中的认知挣扎和反复尝试是判断难度的关键指标，而不仅仅是输出长度。

关键要点

范式转变：题目难度不仅是文本属性，更是解题负担的可观察结果。Epi2Diff 利用 LRMs 的推理轨迹作为过程证据，弥补了传统方法缺乏认知过程数据的不足。
结构化过程证据：通过引入“认知片段”（Cognitive Episodes），将非结构化的推理轨迹转化为功能性的解题状态序列，使得过程数据可用于可解释的建模。
多维难度指标：难度预测不再单一依赖语义相似度，而是综合考量推理规模、努力分配和状态转换三个动态维度。
显著性能提升：在四个真实数据集上，Epi2Diff 优于微调小模型、LLM 上下文学习及监督式 LLM 适配等基线；在 SAT 基准上获得 8.1% 的平均相对增益。
深度可解释性：研究发现，高难度题目的特征在于解题过程中的“费力”、“迭代”和“执行导向”，而非简单的文本长度增加。这为教育测量提供了新的洞察视角。

意义与影响

Epi2Diff 框架的提出，为教育测量（Educational Measurement）领域引入了一个新的透镜。

降低对人工校准的依赖：通过利用 LRMs 生成的过程性证据，该方法提供了一种可扩展的、自动化的难度预测途径，减少了对昂贵人工标注的依赖。
提升评估的公平性与科学性：通过捕捉解题过程中的认知负担和策略差异，Epi2Diff 能够更细致地反映题目对不同类型解题者的实际挑战，有助于构建更公平、更有效的测试体系。
连接 AI 推理与人类认知：该研究证明了 LLM 的推理轨迹可以作为人类认知过程的代理指标。这不仅有助于理解 AI 的推理机制，也为通过 AI 模拟和预测人类行为提供了方法论支持。
推动可解释 AI 在教育中的应用：Epi2Diff 强调“可解释性”，使得预测结果不仅仅是黑盒输出，而是能够揭示“为什么难”的具体认知路径，这对于教育专家理解题目本质、优化试题库具有重要价值。

查看原文 →arxiv.org