技术博客arXiv cs.AI·3 小时前

多智能体LLM团队中人格构成何时影响任务表现

原标题：When Does Personality Composition Matter for Multi-Agent LLM Teams?

速览

该研究通过结构化编码、开放式研究和竞争性谈判三个领域，系统考察了前沿大语言模型中人格构成对多智能体团队表现的影响。研究发现人格效应高度依赖任务结构：在编码任务中，低宜人性虽引发沟通方式大幅改变，但对里程碑完成影响甚微；而在开放式协作和谈判中，同样的操作会显著降低团队性能。这一发现为多智能体系统设计提供了重要参考，并揭示了人格操纵的局限性。

AI 深度解读

多智能体 LLM 团队中，人格组合何时至关重要？

背景

随着大型语言模型（LLM）在构建多智能体系统（Multi-Agent Systems）中的应用日益广泛，研究者开始关注如何通过提示工程（Prompt Engineering）来塑造智能体的行为模式。其中，“人格提示”（Personality Prompting）是一种常见手段，旨在通过调整大模型的沟通风格来优化团队协作。

既往研究表明，通过调整“宜人性”（Agreeableness）这一大五人格特质，可以显著改变智能体的交互方式：低宜人性提示往往导致对抗性语言，而高宜人性提示则促使智能体表现出合作倾向。然而，尽管行为模式的改变已被证实，但这些行为变化是否真正影响了客观的任务结果，目前仍缺乏系统性的探索。特别是在不同任务结构下，人格组合对团队绩效的具体影响机制尚不明确。

核心内容

本研究旨在深入探究人格组成在多智能体团队绩效中的作用。研究团队通过在前沿 LLM 上操纵人格特质，并在三个截然不同的任务领域中进行实验，系统地分析了沟通风格与任务表现之间的关系。

实验设计

研究选取了三个具有代表性的任务领域，以覆盖不同的任务结构复杂度：

结构化编码（Structured Coding）：具有明确规则和预期输出的任务。
开放式研究协作（Open-ended Research Collaboration）：需要创造性思维和灵活互动的任务。
竞争性谈判（Competitive Bargaining）：涉及利益博弈和策略性沟通的任务。

主要发现

研究结果显示，人格对任务绩效的影响高度依赖于任务结构：

在结构化编码任务中：尽管低宜人性提示导致了沟通风格的巨大转变（例如变得更加对抗或强硬），但这种变化对里程碑的完成率和最终代码质量几乎没有产生显著影响。这意味着，在规则明确、逻辑导向的任务中，沟通风格的情感色彩并不直接决定任务成败。
在开放式协作和竞争性谈判任务中：相同的人格操纵（特别是低宜人性带来的对抗性风格）显著降低了团队的整体表现。在需要高度协调、信任建立或策略妥协的场景中，不合作或对抗性的沟通风格成为了性能瓶颈，导致任务效率下降或结果恶化。

关键要点

任务结构是决定性变量：人格特质对多智能体团队的影响并非普适，而是取决于任务本身的性质。结构化任务对沟通风格不敏感，而非结构化或社交密集型任务则高度敏感。
沟通风格与任务结果的非线性关系：虽然低宜人性提示能产生明显的对抗性语言，但这并不总是转化为负面结果。在编码等硬技能任务中，这种“对抗”可能仅表现为风格差异，而不影响逻辑产出；但在软技能任务中，它直接损害协作效率。
高宜人性并非万能解药：虽然高宜人性通常促进合作，但研究暗示在特定竞争或高强度协作场景下，过度温和或避免冲突可能并非最优策略，尽管本研究主要强调了低宜人性带来的负面影响。
多智能体系统设计的启示：在设计多智能体系统时，不能仅关注单个智能体的能力，还需考虑其“性格”配置与任务类型的匹配度。盲目统一智能体的人格设定可能导致在非结构化任务中性能大幅下降。

意义与影响

这项研究为多智能体系统的设计提供了重要的理论依据和实践指导：

优化提示工程策略：开发者应根据任务类型动态调整智能体的人格提示。对于代码生成、数据处理等结构化任务，人格提示的优先级可降低；而对于需要多智能体深度协作、谈判或创意生成的任务，则需精心设计人格组合以最大化协作效率。
揭示 LLM 行为的局限性：研究指出了人格操纵的边界。它证明了改变 LLM 的“语气”并不等同于改变其“能力”或“逻辑推理结果”，特别是在处理客观事实或逻辑问题时。
推动更智能的团队协作框架：未来的多智能体框架可能需要引入“人格适配器”，根据实时任务上下文自动调整智能体的交互风格，从而在保持逻辑准确性的同时，优化社交协作效率。

总之，该研究强调在多智能体 LLM 团队中，“如何沟通”与“做什么”同样重要，但其重要性取决于任务的本质。

查看原文 →arxiv.org