技术博客arXiv cs.CL·2 小时前

多模态智能体能否读懂社交氛围？视觉社交智能基准测试

原标题：Can Agents Read the Room? Benchmarking Visual Social Intelligence in Multimodal Simulation

速览

现有社交智能基准多基于文本，缺乏对多模态智能体利用视觉线索能力的测试。研究推出AgentViSS基准，包含240个场景和多种角色任务，旨在评估多模态大语言模型在视觉社交模拟中的智能水平。实验显示，虽然角色特定的表情和冲突处理已接近饱和，但在交互调节和基于视觉的结果达成方面仍存在显著差距。

AI 深度解读

Can Agents Read the Room? Benchmarking Visual Social Intelligence in Multimodal Simulation

背景

社会交互是一个复杂的过程，不仅依赖于语言交流，还高度依赖于可见的社会信号，如面部表情、身体姿态、视线方向以及情绪变化。然而，当前针对社交智能体（Social Agents）的基准测试（Benchmarks）大多局限于纯文本领域，极少测试多模态智能体（Multimodal Agents）能否利用视觉线索来引导和调节交互过程。

这种“重语言、轻视觉”的现状导致了一个关键的技术盲区：我们尚不清楚大型多模态语言模型（MLLMs）在模拟真实社交场景时，是否具备“读懂房间氛围”（Read the Room）的能力，即能否准确感知并响应非语言的视觉社交信号。

核心内容

为了解决这一缺口，研究人员引入了一个新的基准测试框架——\textsc{\benchmarkname{}}（注：原文中使用了占位符 \textsc{\benchmarkname{}，实际论文中该基准名为 SocialBench 或类似命名，此处依据原文逻辑保留其功能描述，即“视觉社交智能基准”），旨在评估多模态社交模拟中的视觉社交智能。

1. 数据集构建

该基准测试包含以下规模的数据：

240 个场景：构建了多样化的社交情境。
585 个角色实例：涉及不同的人物设定。
2,340 个角色-任务实例：细粒度的交互任务单元。

数据特点在于结合了对齐的文本-视觉证据、结构化的角色档案，并设计了四个层级的角色任务，以全面覆盖社交互动的不同维度：

表情任务（Expression Task）：要求智能体识别或生成特定的面部表情。
特征任务（Characteristic Task）：涉及角色性格或身份特征的展现。
交互调节任务（Interaction Regulation Task）：要求智能体根据视觉线索调节对话节奏、语气或冲突处理方式。
交互结果任务（Interaction Outcome Task）：评估智能体是否达成了预期的社交目标或结果。

2. 实验评估

研究人员对七种近期主流的多模态大型语言模型（MLLMs）进行了评估。实验设置了两种视觉输入模式：

Verbalized-vision（视觉描述化）：将图像信息转化为文本描述后输入模型。
Direct-vision（直接视觉）：模型直接处理图像输入。

3. 主要发现

评估结果揭示了一个明显的差距：局部角色演绎（Local Role Enactment）与交互管理（Interaction Management）之间存在显著的能力断层。

接近饱和的能力：在特定角色的表情表达和冲突处理方面，模型的表现已接近饱和水平。这意味着模型能够较好地执行静态的、角色特定的视觉信号生成或识别。
显著的能力短板：在交互调节和基于视觉线索的结果达成方面，模型的表现仍然 substantially more difficult（显著困难）。这表明，尽管模型能“看”到表情，但难以将这些视觉信号动态地整合到长期的社交策略中，以引导交互走向或解决复杂的社交矛盾。

关键要点

视觉社交智能的缺失：现有社交智能基准过度依赖文本，忽视了面部表情、姿态、视线等视觉信号在社交互动中的核心作用。
多维度的任务设计：新基准不仅测试“看”，更测试“用”。通过表情、特征、调节、结果四个任务层级，从静态感知延伸到动态交互管理。
能力断层现象：MLLMs 在静态的角色扮演（如做出愤怒表情）上表现良好，但在动态的社交策略调整（如根据对方眼神改变对话策略）上表现薄弱。
输入模式的影响：研究对比了“视觉转文本”与“直接视觉”两种输入方式，揭示了当前模型在直接利用视觉信息进行高阶社交推理时的局限性。
数据规模：提供了 240 个场景、585 个角色和 2,340 个任务实例，为后续研究提供了标准化的评估平台。

意义与影响

这项研究对多模态人工智能的发展具有重要的指导意义：

重新定义社交智能：它指出真正的社交智能不仅仅是语言流畅，更包括对非语言视觉信号的敏锐感知和动态响应。这为评估下一代 AI 助手、虚拟人（Virtual Humans）和机器人提供了更全面的指标。
指明技术瓶颈：研究明确指出了当前 MLLMs 的短板在于“交互调节”和“视觉 grounded 的结果达成”。未来的模型优化应聚焦于如何将视觉感知更有效地转化为社交策略，而不仅仅是提升图像识别的准确率。
推动多模态模拟发展：通过提供开源的代码和数据集，该基准测试为社区提供了一个标准化的测试床，有助于加速多模态社交模拟技术的发展，使 AI 在客户服务、心理陪伴、教育辅导等需要高度社交敏感性的场景中变得更加自然和可信。
挑战“读懂空气”的能力：标题中的 "Read the Room" 隐喻了 AI 需要具备的情境感知能力。这项研究证明，目前的 AI 尚无法真正“读懂房间”，这为后续研究设定了明确的挑战目标：让 AI 从“被动响应”走向“主动社交感知”。

查看原文 →arxiv.org