技术博客arXiv cs.AI·1 天前

多维权度分析大模型拟人化行为及其可控性

原标题：Examining Human-Like Behaviors in LLMs: A Multi-Dimensional Analysis of Model Behaviors, User Factors, and System Prompts

速览

该研究对四种主流大模型在2.1万轮对话中的拟人化行为进行了多维权度分析。研究发现拟人行为虽普遍但受模型和用户因素影响，人类对不同类型的拟人行为接受度存在差异。研究证实系统提示可控制这些行为，但需避免意外后果，为负责任的大模型设计提供建议。

AI 深度解读

审视大语言模型中的人类化行为：模型行为、用户因素与系统提示的多维分析

背景

随着大型语言模型（LLMs）在日常交互中的普及，它们表现出的行为日益呈现出“拟人化”特征。这些行为不仅包括表达思想和情感，还涵盖与用户建立关系、拒绝请求以及维持边界等复杂的社会性互动。

然而，尽管这类现象在当前的 AI 交互中司空见惯，研究人员和从业者却缺乏系统性的方法和实证洞察，以决定在何种情境下、以何种类型的人类化行为与 LLM 进行交互最为适宜。现有的设计往往缺乏对“拟人化”边界的量化理解，导致在用户体验、伦理合规及模型可控性之间难以取得平衡。为了填补这一空白，本研究旨在通过多维度的分析，深入探讨 LLM 中人类化行为的普遍性、潜在影响及其可控性。

核心内容

本研究通过结合“LLM 作为裁判”（LLM-as-a-judge）和人类评估两种方法，对四种广泛使用的大语言模型进行了大规模实证分析。研究涵盖了 gpt-4o、gpt-4.1-mini、claude-sonnet-4.6 和 gemini-2.5-flash 四个模型，收集并分析了共计 21,000 轮多轮对话数据。

1. 人类化行为的普遍性与差异性

研究发现，人类化行为在 LLM 的输出中极为普遍，但其表现形式和频率在不同模型之间存在显著差异。此外，这些行为并非固定不变，而是受到用户因素的强烈影响，具体包括：

对话目标：用户旨在获取信息、寻求情感支持还是进行闲聊，会直接诱发模型不同强度的拟人化反应。
用户画像：用户的个人特征和交互风格也会引导模型调整其回应策略。

2. 人类评估者对行为适当性的判断

研究引入了人类评估者，对比了 LLM 与人类在表现出同类行为时的“适当性”感知。结果揭示了明显的认知偏差：

自我指涉与关系建立行为：当 LLM 表现出自我指涉（如表达个人感受）或试图与用户建立深层关系时，人类评估者认为这些行为从 LLM 身上出现是不适当的，其适当性评分低于人类做出同样行为的情况。这反映了用户对 AI“非人”本质的认知坚守。
维持边界行为：相反，当 LLM 表现出拒绝不当请求或设定交互边界的行为时，人类评估者认为这些行为从 LLM 身上出现是更适当的，其适当性评分高于人类。这表明用户倾向于将 LLM 视为需要严格规则约束的工具或助手，而非拥有自主意志的平等对话者。

3. 系统提示的可控性与风险

研究证实，通过精心设计的系统提示（System Prompts），开发者可以有效控制 LLM 中人类化行为的强度和类型。然而，这种控制并非没有代价。研究发现，强行抑制或增强某些拟人化行为可能会引发非预期的副作用（Unintended Effects），例如导致模型在其他任务上的表现下降，或产生隐蔽的幻觉。因此，对提示工程的效果需要进行谨慎的评估。

关键要点

行为普遍但异质：人类化行为在主流 LLM（如 gpt-4o, claude-sonnet-4.6 等）中广泛存在，但其具体表现受模型架构、对话目标及用户画像的共同调节。
双重标准感知：用户对待 AI 的拟人化行为存在“双重标准”——反感 AI 模仿人类的情感与社交亲密感（认为不适当），但赞赏 AI 展现出的规则意识与边界感（认为更适当）。
提示工程的双刃剑：系统提示是调控拟人化行为的有效手段，但必须警惕其带来的副作用，避免为了追求拟人化而牺牲模型的准确性或安全性。
缺乏统一标准：目前行业缺乏关于“何时、何种程度”使用拟人化行为的实证指南，本研究提供的多维数据为制定此类标准奠定了基础。

意义与影响

这项研究对负责任的大语言模型设计与评估具有重要的指导意义：

指导产品设计：开发者应意识到，过度拟人化（特别是情感绑定）可能适得其反，降低用户的信任度；相反，强调边界感和合规性的“助手”形象可能更符合用户预期。
优化评估体系：现有的模型评估往往侧重于事实准确性或逻辑推理，本研究强调了将“社会适宜性”和“拟人化程度”纳入评估指标的重要性。
促进伦理对齐：通过理解用户对不同拟人化行为的接受度，研究有助于制定更精细的 AI 对齐策略，确保模型在提供有用性的同时，保持清晰的人机界限，避免产生误导性的情感依赖或伦理风险。

总之，该研究为从“黑盒”式的拟人化交互转向“透明、可控、符合预期”的人机交互提供了关键的实证依据。

查看原文 →arxiv.org