技术博客arXiv cs.CL·1 小时前

BehaviorBench基准测试揭示基础模型在行为科学任务中的表现差距

原标题：BehaviorBench: Benchmarking Foundation Models for Behavioral Science Tasks

速览

研究团队推出BehaviorBench基准，系统评估基础模型在行为预测、决策制定等四大核心能力上的表现，涵盖个体与分布两个层面。基于此，开发了微调模型Be.FM-1.5，结果显示其在分布对齐上优于通用模型，但在个体预测上仍有差距。该基准为开发行为对齐的AI系统奠定了基础，并展示了行为适应在缩小模型差距中的潜力。

AI 深度解读

BehaviorBench：为行为科学任务评估基础模型

背景

近年来，基础模型（Foundation Models）在心理学、社会学和经济学等行为科学领域的应用日益广泛。这些模型在诸如问卷调查响应预测和人类受试者实验模拟等单一任务中展现出了巨大的潜力。

然而，尽管前景广阔，目前学术界和行业仍缺乏对基础模型在多样化行为科学任务、不同语境以及不同人群中的整体表现的系统性理解。现有的评估往往局限于单一指标或特定任务，难以全面反映模型在行为科学领域的有效性和可靠性。为了填补这一空白，研究人员引入了 BehaviorBench，这是一个旨在全面评估基础模型在行为科学任务中表现的综合基准测试。

核心内容

BehaviorBench 的核心在于构建了一个多维度的评估框架，不仅关注模型在单一受试者层面的准确性，更强调其在群体分布层面的一致性，这是行为科学有效性的关键要求。

四大核心评估能力

BehaviorBench 从以下四个核心能力维度对基础模型进行评估：

行为预测与模拟（Behavior prediction and simulation）：评估模型预测个体行为或模拟实验结果的能力。
战略决策（Strategic decision-making）：测试模型在涉及博弈论或复杂互动场景下的决策质量。
受试者特征推断（Subject-trait inference）：考察模型从行为数据中推断个体心理特质或人口统计学特征的能力。
行为知识应用（Behavioral knowledge application）：评估模型将行为科学理论应用于具体情境的能力。

双层级评估体系

BehaviorBench 的创新之处在于其双层级评估机制：

个体层面（Individual Level）：衡量模型对单个受试者预测的准确性。
分布层面（Distributional Level）：衡量模型生成的行为数据与真实人类群体行为分布的对齐程度。

这种设计捕捉了不仅限于“猜对某个人”的准确性，更关注模型生成的整体行为模式是否符合统计学规律，这对于行为科学研究的内部效度和外部效度至关重要。

this http URL-1.5 模型的引入

基于 BehaviorBench 的任务设定，研究团队进一步开发了 this http URL-1.5 模型。该模型属于 this http URL 系列，是专门针对行为数据进行微调的行为基础模型。通过对比通用基础模型与经过行为数据微调的模型，研究旨在揭示“行为适应性”对模型性能的具体影响。

主要发现

实验结果揭示了通用模型与行为专用模型之间的显著差异：

通用专有模型（Proprietary general-purpose models）：在个体层面的预测任务以及知识密集型任务中表现优异。
行为基础模型（Behavioral foundation models）：在分布对齐（distributional alignment）方面取得了显著更强的表现。
this http URL-1.5 的表现：该模型在分布指标上领先，同时在个体层面指标上也保持竞争力。这表明，适当的行为适应（即针对行为数据进行的微调）能够缩小通用模型与专用模型在分布一致性上的差距。

关键要点

系统性评估缺失：此前缺乏对基础模型在广泛行为科学任务、语境和人群中表现的系统性评估。
BehaviorBench 的四大维度：涵盖行为预测模拟、战略决策、特征推断和行为知识应用。
分布对齐的重要性：BehaviorBench 强调在个体准确性之外，必须评估模型输出与人类群体行为分布的一致性，这是行为有效性的核心。
模型性能差异：
- 通用专有模型擅长个体预测和知识密集型任务。
- 经过行为数据微调的模型（如 this http URL-1.5）在分布对齐上表现更佳。
微调的价值：this http URL-1.5 证明了通过行为数据微调，可以在保持个体预测竞争力的同时，大幅提升分布对齐能力，从而缩小与通用大模型的差距。
资源开放：BehaviorBench 基准测试和 this http URL-1.5 模型已通过指定链接公开，供社区访问和使用。

意义与影响

BehaviorBench 的发布及其相关研究成果对行为科学和人工智能领域具有深远的影响：

确立评估新标准：研究强调了分布评估（distributional evaluation）的重要性，为开发具有行为对齐（behaviorally aligned）的人工智能系统建立了新的评估基准。
推动行为科学方法论：通过提供 this http URL-1.5 等经过微调的模型，BehaviorBench 展示了利用 AI 辅助大规模行为科学研究的潜力，特别是在需要模拟大规模人群行为或进行复杂心理特质推断的场景中。
弥合通用与专用模型的鸿沟：结果表明，通过针对性的行为适应，通用基础模型可以显著提升其在行为科学特定维度（如分布一致性）上的表现，这为未来开发更高效、更专业的垂直领域大模型提供了实证支持。
促进社区协作：通过公开基准和模型，BehaviorBench 鼓励学术界和工业界共同探索基础模型在社会科学中的应用边界，推动开放科学的发展。

查看原文 →arxiv.org