技术博客arXiv cs.CL·1 小时前

大模型难以准确评估阅读理解题目的区分度

原标题：LLMs Struggle to Measure What Distinguishes Students of Different Proficiency Levels: A Study of Item Discrimination in Reading Comprehension Assessment

速览

一项针对42个大语言模型的研究发现，其在零样本设置下预测阅读理解题目区分度的能力有限。无论是直接预测还是基于合成学生回答的经典测试理论校准，模型结果与人工校准的相关性均较弱。这表明当前大模型尚无法可靠地捕捉评估题目区分人类学生水平的能力，该领域仍具挑战。

AI 深度解读

LLMs Struggle to Measure What Distinguishes Students of Different Proficiency Levels: A Study of Item Discrimination in Reading Comprehension Assessment

背景

在教育测量学（Psychometrics）中，**项目区分度（Item Discrimination）**是评估试题质量的一个核心指标。它衡量的是一个测试题目能否有效地区分高能力学生和低能力学生。如果一道题目无法区分不同水平的学生（例如，高分段和低分段的学生答对率相似），那么这道题目在评估学生真实水平时就是无效的。

近年来，随着大型语言模型（LLMs）在教育领域的应用日益广泛，学界开始探索 LLM 是否能替代人类专家来评估试题质量。现有的研究主要集中在 LLM 估计项目难度（Item Difficulty）的能力上，即判断一道题是否容易。然而，LLM 是否具备捕捉项目区分度这一更复杂心理测量属性的能力，目前仍是一个未解之谜。

这篇来自 arXiv cs.CL 的研究（提交于 2026 年 6 月 17 日）旨在填补这一空白。研究团队通过评估 42 个专有和开源 LLMs，深入探讨了它们在零样本（Zero-shot）设置下，能否准确测量阅读理解测试中的项目区分度。

核心内容

为了评估 LLM 在捕捉项目区分度方面的能力，研究采用了两种互补的方法对 42 个 LLM 进行了测试：

1. 直接区分度预测（Direct Discrimination Prediction）

在这种方法中，模型被要求直接根据题目内容估算一个项目的区分度值。这要求 LLM 具备内在的心理测量学知识，能够从文本特征中推断出该题目区分高低能力学生的潜力。

2. 基于反应的经典测验理论（CTT）校准（Response-based Classical Test Theory Calibration）

在这种方法中，LLM 的回答被视为“合成学生”的回答。研究团队构建了一个包含多种“人格”的合成受访者池（synthetic respondent pool），让 LLMs 模拟不同水平的学生回答问题，然后利用经典测验理论（CTT）公式计算这些合成回答的区分度分数。

研究结果

直接预测效果微弱： LLM 直接预测的区分度与人类校准的真实区分度之间对齐程度很差。表现最好的模型，其斯皮尔曼等级相关系数（Spearman correlation）仅为 0.152。这表明，仅凭文本内容，当前的 LLM 很难准确判断一道题的区分能力。
基于反应的 CTT 校准信号更强但依然有限： 通过模拟学生回答并计算区分度，效果略好于直接预测。其中，使用全人格合成受访者池（all-persona synthetic respondent pool）的方法达到了 0.241 的斯皮尔曼相关系数。虽然这比直接预测有显著提升，但 0.241 的相关性在心理测量学中仍然被视为较低水平，意味着信号依然有限。

主要发现

研究指出，项目区分度仍然是基于 LLM 的心理测量评估中的一个开放性问题。虽然当前的 LLM 中包含了一些非随机的、与区分度相关的信号（non-random discrimination-relevant signal），但它们尚未能可靠地捕捉到评估题目如何区分人类学生的机制。

关键要点

区分度 vs. 难度： 现有研究多关注 LLM 估计“难度”的能力，而本研究聚焦于更复杂的“区分度”指标，揭示了 LLM 在此方面的局限性。
两种评估路径： 研究对比了“直接文本分析”和“模拟行为分析（CTT）”两种路径，发现后者（模拟回答）比前者（直接预测）更能捕捉到一定的区分信号，但两者均表现不佳。
相关性低： 无论是直接预测（最高 0.152）还是基于反应的校准（最高 0.241），LLM 生成的区分度指标与人类专家校准的真实区分度之间相关性都很低。
信号存在但不可靠： LLM 并非完全随机地生成区分度信号，它们确实包含了一些相关信息，但这些信息不足以支持可靠的自动化评估。
零样本设置： 所有实验均在零样本（Zero-shot）设置下进行，意味着模型没有针对特定测试数据进行微调，这进一步凸显了通用 LLM 在专业心理测量任务上的固有缺陷。

意义与影响

这项研究对教育技术（EdTech）和人工智能在教育评估中的应用提出了重要的警示：

自动化评估的局限性： 尽管 LLM 在生成试题或提供反馈方面表现出色，但在核心的心理测量属性（如区分度）评估上，它们目前还无法替代人类专家。依赖 LLM 自动筛选或优化试题质量可能会导致引入低质量题目。
合成数据生成的偏差： 使用 LLM 生成“合成学生”回答来模拟测试数据，虽然比直接预测稍好，但仍存在显著偏差。教育研究者在使用合成数据进行测试或校准模型时，必须谨慎对待由此产生的心理测量指标。
未来研究方向： 研究结果指明了改进方向。未来的工作可能需要结合更复杂的提示工程、微调特定领域的心理测量模型，或者开发混合系统，将 LLM 的文本理解能力与传统的心理测量统计方法更紧密地结合，以提高区分度估计的准确性。

总之，虽然 LLM 展现了强大的语言理解能力，但在理解“题目如何区分人”这一深层教育测量逻辑上，它们仍面临巨大挑战。

查看原文 →arxiv.org