技术博客arXiv cs.CL·3 小时前

Measuring Judgment Quality in Natural-Language Explanations: Evidence from Forecasting Tournaments

AI 深度解读

在商业、政策制定及各类组织决策中，决策者往往不仅依赖专家给出的判断结论，还会参考专家提供的书面解释。然而，如何大规模、客观地衡量这些自然语言解释的质量，一直是学术界和工业界的难题。传统的文本分析方法（如情感分析、词汇统计等预 LLM 时代的 NLP 技术）在捕捉深层次的推理质量方面表现有限。

预测竞赛为这一难题提供了一个天然的“试炼场”。在预测竞赛中，参与者不仅需要给出概率判断，还需提供支撑其判断的自然语言理由，而这些理由最终会由现实发生的结果进行客观评分。这种“判断-理由-结果”的三元结构，使得研究人员能够回溯性地检验解释质量与判断准确性之间的关联。

本文提出了“解释质量标记”（Explanation Quality Markers, EQMs）这一创新框架，旨在通过大规模分析预测竞赛中的自然语言解释，衡量人类判断的质量。

EQMs 包含 60 个基于理论引导的推理模式，由大语言模型（LLMs）进行自动化评分。研究团队在一项预注册的分析中，利用某多年预测竞赛里超过 55,000 个“预测-理由”对，对 EQMs 的有效性进行了全面检验。

研究的核心发现如下：

EQMs 具有显著的预测力：EQMs 能够在单次预测层面和预测者层面有效预测判断的准确性，并且其表现一致优于传统的预 LLM 文本分析方法。
高度符合理论假设：在统计显著的模式级 EQM-准确性相关性中，超过 90% 的方向性符合研究人员的理论假设，表明 EQMs 捕捉到了真正有价值的推理特征。
信号的不对称性：EQMs 在识别可能表现不佳的预测/预测者时更为可靠，但在区分最顶尖的预测者时能力相对有限。这意味着“糟糕的推理很容易露出马脚”，但“顶尖的推理未必能用同一套标记完全量化”。
与传统指标的对比：在预测层面，EQMs 是准确率的最强预测因子；但在预测者层面，EQMs 虽然具有竞争力，却弱于“历史准确率”这一传统指标。这说明长期积累的过往成绩依然是衡量个人能力的金标准，但 EQMs 为单次预测的质量评估提供了不可替代的增量信息。
人类评价的局限性：与人类