← 返回信息流
技术博客arXiv cs.CL·4 小时前

优化提示词可提升大模型对人类判断的捕捉能力

原标题:LLMs Can Better Capture Human Judgments--With the Right Prompts

速览

针对大模型难以捕捉人类判断分布及稳定性不足的问题,研究提出简单的提示策略以改善AI与人类的一致性。实验显示,要求模型报告标准差和响应比例能更好还原人类反应全貌,且场景清晰度直接影响对齐效果。尽管模型对自身误差校准不佳,但能较好预测人类变异性,表明优化提问方式可显著提升大模型表现。

AI 深度解读

LLMs Can Better Capture Human Judgments--With the Right Prompts

背景

大型语言模型(LLMs)在模拟人类判断方面一直面临质疑。学术界和工业界普遍存在两种主要的批评观点,认为 LLMs 在捕捉人类判断时存在显著缺陷:

  1. 无法捕捉完整的响应分布:LLMs 往往倾向于给出单一、确定性的答案,而忽略了人类观点中存在的多样性、不确定性和分布特征。
  2. 对措辞变化敏感,判断不稳定:当提示词(Prompt)中的细微措辞发生变化时,LLMs 的判断结果可能出现大幅波动,缺乏鲁棒性。

这些局限性使得 LLMs 在需要高精度对齐人类价值观、道德判断或社会调查数据的场景中难以直接应用。然而,一项发表于 arXiv(cs.CL 分类,提交日期为 2026 年 6 月 10 日)的研究指出,这些问题并非无解。通过采用简单的提示策略,可以显著改善 LLMs 与人类判断的一致性。

核心内容

本研究通过两个具有代表性的数据集,验证了简单的提示工程策略如何帮助提升人工智能与人类判断的对齐程度。

1. 数据集与实验设置

研究选取了两个关键数据集进行实证分析:

  • 美国代表性道德场景集:包含 144 个道德困境场景,旨在测试模型在复杂道德判断上的表现。
  • 国际社会科学调查项目(ISSP)数据:涵盖来自 32 个国家的 38 项关于“家庭与性别角色变化”模块的道德信念数据。

2. 核心发现一:恢复人类响应的完整分布

传统的 LLM 评估方法通常只关注模型给出的“最可能”答案或平均得分。本研究证明,通过改变提示策略,让模型报告标准差(Standard Deviations)响应比例(Response Proportions),可以更准确地恢复人类响应的全貌。

  • 机制:不再仅仅询问模型“人类会怎么想”,而是要求模型输出人类观点的统计分布特征。
  • 效果:这种简单的提取技术(Elicitation Techniques)比常见的单一答案策略更能反映人类判断的多样性和不确定性。

3. 核心发现二:人类困惑度是模型对齐的关键指标

研究还发现,场景本身的清晰度对模型对齐至关重要。

  • 人类困惑度评分(Human Confusion Ratings):如果人类参与者对某个道德场景感到困惑,LLMs 在该场景上的判断与人类判断的一致性也会降低。
  • 模型追踪能力:LLMs 能够有效地追踪和预测人类的困惑度评分。这意味着,通过确保场景对参与者清晰明确,可以显著提升模型与人类判断的对齐度。

4. 模型的自我校准能力局限

尽管 LLMs 在预测人类变异性方面表现相对较好,但研究发现,LLMs 对自身错误的估计(Self-error estimation)校准度很差。也就是说,模型往往无法准确判断自己是否犯了错,或者对自身的置信度评估存在偏差。

5. 核心结论

研究总结指出:向 LLMs 提出更好的问题(Asking better questions),可以产生更好的答案。 通过调整提示策略,关注分布特征和场景清晰度,可以克服 LLMs 在捕捉人类判断时的固有局限。

关键要点

  • 分布优于单点:要求 LLMs 报告标准差和响应比例,比仅获取单一答案更能准确捕捉人类判断的完整分布。
  • 场景清晰度至关重要:人类对道德场景的困惑程度是衡量模型对齐效果的重要指标;场景越清晰,模型与人类判断的一致性越高。
  • 模型具备元认知潜力:LLMs 能够追踪人类的困惑度评分,表明其在一定程度上具备理解人类认知状态的能力。
  • 自我评估存在偏差:尽管能预测人类变异性,但 LLMs 对自身错误的校准(Calibration)仍然较差,需谨慎对待其自我置信度。
  • 提示工程的有效性:简单的提示策略调整即可显著改善 AI-人类对齐,无需复杂的模型架构修改。

意义与影响

这项研究对 LLMs 在社会科学、伦理评估和人机对齐领域的应用具有重要启示:

  1. 提升社会模拟的准确性:在模拟公众舆论、道德共识或社会态度时,仅依靠 LLMs 的平均输出是不够的。引入分布感知提示策略,可以使 AI 更真实地反映社会的多元观点和不一致性。
  2. 优化调查与评估工具:对于依赖 LLMs 进行大规模人类行为预测或价值观对齐的应用(如政策模拟、伦理审查),研究者应重视“场景清晰度”这一变量,并主动测量和报告人类困惑度。
  3. 重新审视模型评估标准:传统的准确性指标可能掩盖了模型在捕捉人类不确定性方面的失败。未来评估 LLMs 时,应纳入对分布拟合度和校准度的考察。
  4. 低成本改进路径:研究证明,通过简单的提示工程即可解决部分核心局限,这为降低 AI 对齐成本、提高现有模型可用性提供了切实可行的技术路径。

总之,该研究强调,LLMs 并非天生无法捕捉人类判断,关键在于我们如何设计交互方式。通过更科学、更细致的提问策略,我们可以挖掘出 LLMs 在理解人类复杂认知和社会规范方面的巨大潜力。

查看原文 →arxiv.org