← 返回信息流
技术博客arXiv cs.CL·3 小时前

Measuring Judgment Quality in Natural-Language Explanations: Evidence from Forecasting Tournaments

AI 深度解读

背景

在商业、政策制定及各类组织决策中,决策者往往不仅依赖专家给出的判断结论,还会参考专家提供的书面解释。然而,如何大规模、客观地衡量这些自然语言解释的质量,一直是学术界和工业界的难题。传统的文本分析方法(如情感分析、词汇统计等预 LLM 时代的 NLP 技术)在捕捉深层次的推理质量方面表现有限。

预测竞赛为这一难题提供了一个天然的“试炼场”。在预测竞赛中,参与者不仅需要给出概率判断,还需提供支撑其判断的自然语言理由,而这些理由最终会由现实发生的结果进行客观评分。这种“判断-理由-结果”的三元结构,使得研究人员能够回溯性地检验解释质量与判断准确性之间的关联。

核心内容

本文提出了“解释质量标记”(Explanation Quality Markers, EQMs)这一创新框架,旨在通过大规模分析预测竞赛中的自然语言解释,衡量人类判断的质量。

EQMs 包含 60 个基于理论引导的推理模式,由大语言模型(LLMs)进行自动化评分。研究团队在一项预注册的分析中,利用某多年预测竞赛里超过 55,000 个“预测-理由”对,对 EQMs 的有效性进行了全面检验。

研究的核心发现如下:

  1. EQMs 具有显著的预测力:EQMs 能够在单次预测层面和预测者层面有效预测判断的准确性,并且其表现一致优于传统的预 LLM 文本分析方法。
  2. 高度符合理论假设:在统计显著的模式级 EQM-准确性相关性中,超过 90% 的方向性符合研究人员的理论假设,表明 EQMs 捕捉到了真正有价值的推理特征。
  3. 信号的不对称性:EQMs 在识别可能表现不佳的预测/预测者时更为可靠,但在区分最顶尖的预测者时能力相对有限。这意味着“糟糕的推理很容易露出马脚”,但“顶尖的推理未必能用同一套标记完全量化”。
  4. 与传统指标的对比:在预测层面,EQMs 是准确率的最强预测因子;但在预测者层面,EQMs 虽然具有竞争力,却弱于“历史准确率”这一传统指标。这说明长期积累的过往成绩依然是衡量个人能力的金标准,但 EQMs 为单次预测的质量评估提供了不可替代的增量信息。
  5. 人类评价的局限性:与人类
查看原文 →arxiv.org