大模型也会产生连贯性错觉: surprisal、能量与注意力熵揭示机制
原标题:When Context Misleads: Surprisal, Energy and Attention Entropy as Metrics of Coherence Illusions in LLMs
速览
心理语言学表明人类读者易受连贯性错觉影响,本研究验证了荷兰语大模型在类似文本中是否表现出相同行为。结果显示,关键位置的surprisal值与人类接受度判断及眼动数据高度相关,且前文干扰词会降低模型对不连贯内容的惊讶度。此外,注意力熵能识别出处理连贯性差异的关键注意力头,而引入关联记忆领域的能量指标则有效量化了话语连贯性。这些发现揭示了大模型中跨场景运行的共享机制。
AI 深度解读
AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org
