技术博客arXiv cs.AI·2 小时前

利用认知模型提升大语言模型对人类说服行为的模拟

原标题：Using Cognitive Models to Improve Language Model Simulation of Human Persuasion Games

速览

研究提出“方程到行为提示”和“方程到行为强化学习”方法，引导大语言模型匹配贝叶斯更新等认知模型。实验表明，强化学习可显著降低小模型的信念误差，并生成更多样化的训练环境，提升模型在复杂说服场景下的表现。

AI 深度解读

利用认知模型提升语言模型对人类说服游戏的模拟能力

背景

在战略互动（strategic interactions）中，人类的决策行为呈现出极大的异质性。传统的观点往往假设人类是理性的，或者仅关注单一的偏差类型。然而，现实中的决策者行为模式复杂多样：一部分人倾向于像贝叶斯主义者（Bayesian）那样根据新证据更新信念；而另一部分人则表现出动机性推理（motivated reasoning）等认知偏差，即倾向于接受符合自身预设观点的证据，而忽视或扭曲反面证据。

尽管大型语言模型（LLMs）的开发者广泛使用“模拟人类”来进行安全评估和模型训练，但现有的模拟方法往往难以覆盖人类行为的这一广阔光谱。这种单一性或偏差性的模拟，限制了LLM在复杂社交互动、谈判或说服场景下的真实性和鲁棒性。

为了解决这一问题，研究者指出，认知科学和经济学提供了现成的工具——即人类决策的数学模型。这些模型能够精确描述人类如何处理信息、更新信念以及产生偏差。本文旨在探讨如何利用这些数学模型来增强LLM对人类行为的模拟能力，特别是在基于法律决策的“说服游戏”场景中。

核心内容

1. 方法论：从方程到行为（Equation-to-Behavior）

研究提出了一种名为“从方程到行为提示”（Equation-to-Behavior Prompting, EtB-Prompting）的方法。该方法的核心思想是将认知科学中描述人类决策的数学方程转化为自然语言提示（prompts），引导LLM在生成回复时遵循特定的认知规则，从而使其行为逼近真实人类的决策模式。

研究重点评估了以下几种基于方程的人类决策模型：

贝叶斯更新（Bayesian updating）：理性地根据先验概率和似然度更新信念。
仿射扭曲（Affine distortion）：对概率或信念进行线性的非线性变换，模拟一般的认知偏差。
动机性更新（Motivated updating）：根据个人的动机或偏好，不对称地加权正面和负面证据。
Grether的 $\alpha$-$\beta$ 模型：一种经典的描述信念更新中权重分配偏差的模型。

2. 实验设置：基于法律决策的说服游戏

为了验证该方法的有效性，研究者构建了一个基于法律决策的说服游戏环境。在这个环境中，LLM扮演说服者或决策者的角色，通过交互来改变对方的信念。这种设置能够很好地模拟现实世界中复杂的意见交换和信念修正过程。

3. 主要发现：大模型与小模型的差异

研究对比了大型语言模型和小型语言模型在遵循认知模型方面的表现：

大型模型（Large Models）：通过简单的提示工程（Prompting），大模型能够很好地近似上述基于方程的规范（如贝叶斯更新、动机性更新等）。这表明大模型内部已经蕴含了足够的认知能力，只需通过提示引导即可激活特定的行为模式。
小型模型（Small Models）：相比之下，小型模型仅靠提示无法有效遵循这些复杂的数学规则。它们的输出往往偏离预期的认知模型，表现出较高的信念误差。

4. 解决方案：从方程到行为强化学习（Equation-to-Behavior RL）

针对小型模型无法通过提示达到理想效果的问题，研究者引入了强化学习（Reinforcement Learning, RL）进行微调，提出了“从方程到行为强化学习”（Equation-to-Behavior RL, EtB-RL）。

方法：训练小型模型严格遵循数学规则，通过奖励机制鼓励其输出符合特定认知模型的行为。
结果：这种方法显著提升了小型模型的表现。在分布外（out-of-distribution）的参数化测试中，EtB-RL 将信念误差降低了 26.5%。

5. 应用价值：多样化训练环境

研究进一步展示了这些高保真模拟对人类决策者多样性的捕捉能力，如何反过来提升LLM自身的性能：

训练环境多样化：利用模拟出的不同认知类型（如贝叶斯型、动机性推理型等）创建多样化的训练环境。
性能提升：当小型模型被训练去考虑不同类型的决策者（而不仅仅是贝叶斯型）时，其平均信念变化率提升了 2.5% 到 12%。
泛化能力：这种提升甚至在面对更强大的模型（如 GPT-5-mini）作为对手时依然有效，证明了模拟人类多样性对于提升LLM社交智能的重要性。

关键要点

人类决策的多样性：人类在战略互动中并非单一理性，而是混合了贝叶斯更新、动机性推理等多种认知模式。现有的LLM模拟往往缺乏这种多样性。
EtB-Prompting 的有效性：通过“从方程到行为提示”，大型语言模型能够直接通过提示词模拟贝叶斯更新、仿射扭曲、动机性更新和 Grether 的 $\alpha$-$\beta$ 模型等复杂认知行为。
小模型的局限性及 RL 补救：小型语言模型无法仅靠提示词准确模拟上述认知模型，但通过“从方程到行为强化学习”（EtB-RL）进行微调，可将分布外信念误差降低 26.5%。
模拟多样性提升模型鲁棒性：训练LLM适应多种人类决策者类型（而非仅贝叶斯类型），能使其在说服任务中的平均信念变化提升 2.5%-12%，即使面对 GPT-5-mini 等更强对手也有效。
跨学科融合：将认知科学和经济学的数学模型引入LLM训练，为构建更真实、更多样化的人类模拟提供了可行路径。

意义与影响

这项工作在多个层面具有深远的影响：

提升安全评估与训练的真实性：随着LLM被部署到更复杂的现实场景中，使用高保真、多样化的人类模拟进行安全评估和训练变得至关重要。本研究提供的方法论使得开发者能够更精确地模拟人类在谈判、说服、辩论等场景中的反应，从而提前发现模型在社交互动中的潜在风险或弱点。
增强LLM的社交智能：通过让LLM学会识别和适应不同认知类型的“人类”，模型在处理复杂人际互动时将更加灵活和有效。这对于开发助手、客服代理或教育工具等需要高度社交智能的应用具有直接价值。
推动认知科学与AI的交叉研究：本研究展示了数学化的认知模型可以作为LLM行为控制的“接口”。这不仅有助于AI模拟人类，也为认知科学家提供了一个新的实验平台：通过观察LLM在遵循不同认知方程时的表现，可以反过来验证或细化人类决策的理论模型，探索更复杂的数学描述。
解决小模型的能力瓶颈：研究证明，通过结合提示工程和强化学习，即使是小型模型也能被赋予复杂的认知模拟能力。这为在资源受限环境下部署具备高保真人类模拟能力的模型提供了技术路径。

总之，这项工作标志着LLM从“通用文本生成”向“精确行为模拟”迈出了重要一步，为构建更智能、更可信、更贴近人类互动的人工智能系统奠定了坚实基础。

查看原文 →arxiv.org