技术博客arXiv cs.CL·4 小时前

优化提示词可提升大模型对人类判断的捕捉能力

原标题：LLMs Can Better Capture Human Judgments--With the Right Prompts

速览

针对大模型难以捕捉人类判断分布及稳定性不足的问题，研究提出简单的提示策略以改善AI与人类的一致性。实验显示，要求模型报告标准差和响应比例能更好还原人类反应全貌，且场景清晰度直接影响对齐效果。尽管模型对自身误差校准不佳，但能较好预测人类变异性，表明优化提问方式可显著提升大模型表现。

大型语言模型（LLMs）在模拟人类判断方面一直面临质疑。学术界和工业界普遍存在两种主要的批评观点，认为 LLMs 在捕捉人类判断时存在显著缺陷：

这些局限性使得 LLMs 在需要高精度对齐人类价值观、道德判断或社会调查数据的场景中难以直接应用。然而，一项发表于 arXiv（cs.CL 分类，提交日期为 2026 年 6 月 10 日）的研究指出，这些问题并非无解。通过采用简单的提示策略，可以显著改善 LLMs 与人类判断的一致性。

本研究通过两个具有代表性的数据集，验证了简单的提示工程策略如何帮助提升人工智能与人类判断的对齐程度。

研究选取了两个关键数据集进行实证分析：

传统的 LLM 评估方法通常只关注模型给出的“最可能”答案或平均得分。本研究证明，通过改变提示策略，让模型报告标准差（Standard Deviations）和响应比例（Response Proportions），可以更准确地恢复人类响应的全貌。

研究还发现，场景本身的清晰度对模型对齐至关重要。

人类困惑度评分（Human Confusion Ratings）：如果人类参与者对某个道德场景感到困惑，LLMs 在该场景上的判断与人类判断的一致性也会降低。
模型追踪能力：LLMs 能够有效地追踪和预测人类的困惑度评分。这意味着，通过确保场景对参与者清晰明确，可以显著提升模型与人类判断的对齐度。

尽管 LLMs 在预测人类变异性方面表现相对较好，但研究发现，LLMs 对自身错误的估计（Self-error estimation）校准度很差。也就是说，模型往往无法准确判断自己是否犯了错，或者对自身的置信度评估存在偏差。

研究总结指出：向 LLMs 提出更好的问题（Asking better questions），可以产生更好的答案。 通过调整提示策略，关注分布特征和场景清晰度，可以克服 LLMs 在捕捉人类判断时的固有局限。

这项研究对 LLMs 在社会科学、伦理评估和人机对齐领域的应用具有重要启示：

提升社会模拟的准确性：在模拟公众舆论、道德共识或社会态度时，仅依靠 LLMs 的平均输出是不够的。引入分布感知提示策略，可以使 AI 更真实地反映社会的多元观点和不一致性。
优化调查与评估工具：对于依赖 LLMs 进行大规模人类行为预测或价值观对齐的应用（如政策模拟、伦理审查），研究者应重视“场景清晰度”这一变量，并主动测量和报告人类困惑度。
重新审视模型评估标准：传统的准确性指标可能掩盖了模型在捕捉人类不确定性方面的失败。未来评估 LLMs 时，应纳入对分布拟合度和校准度的考察。
低成本改进路径：研究证明，通过简单的提示工程即可解决部分核心局限，这为降低 AI 对齐成本、提高现有模型可用性提供了切实可行的技术路径。

总之，该研究强调，LLMs 并非天生无法捕捉人类判断，关键在于我们如何设计交互方式。通过更科学、更细致的提问策略，我们可以挖掘出 LLMs 在理解人类复杂认知和社会规范方面的巨大潜力。