← 返回信息流
技术博客arXiv cs.CL·2 小时前

多模态智能体能否读懂社交氛围?视觉社交智能基准测试

原标题:Can Agents Read the Room? Benchmarking Visual Social Intelligence in Multimodal Simulation

速览

现有社交智能基准多基于文本,缺乏对多模态智能体利用视觉线索能力的测试。研究推出AgentViSS基准,包含240个场景和多种角色任务,旨在评估多模态大语言模型在视觉社交模拟中的智能水平。实验显示,虽然角色特定的表情和冲突处理已接近饱和,但在交互调节和基于视觉的结果达成方面仍存在显著差距。

AI 深度解读

Can Agents Read the Room? Benchmarking Visual Social Intelligence in Multimodal Simulation

背景

社会交互是一个复杂的过程,不仅依赖于语言交流,还高度依赖于可见的社会信号,如面部表情、身体姿态、视线方向以及情绪变化。然而,当前针对社交智能体(Social Agents)的基准测试(Benchmarks)大多局限于纯文本领域,极少测试多模态智能体(Multimodal Agents)能否利用视觉线索来引导和调节交互过程。

这种“重语言、轻视觉”的现状导致了一个关键的技术盲区:我们尚不清楚大型多模态语言模型(MLLMs)在模拟真实社交场景时,是否具备“读懂房间氛围”(Read the Room)的能力,即能否准确感知并响应非语言的视觉社交信号。

核心内容

为了解决这一缺口,研究人员引入了一个新的基准测试框架——\textsc{\benchmarkname{}}(注:原文中使用了占位符 \textsc{\benchmarkname{},实际论文中该基准名为 SocialBench 或类似命名,此处依据原文逻辑保留其功能描述,即“视觉社交智能基准”),旨在评估多模态社交模拟中的视觉社交智能。

1. 数据集构建

该基准测试包含以下规模的数据:

  • 240 个场景:构建了多样化的社交情境。
  • 585 个角色实例:涉及不同的人物设定。
  • 2,340 个角色-任务实例:细粒度的交互任务单元。

数据特点在于结合了对齐的文本-视觉证据结构化的角色档案,并设计了四个层级的角色任务,以全面覆盖社交互动的不同维度:

  1. 表情任务(Expression Task):要求智能体识别或生成特定的面部表情。
  2. 特征任务(Characteristic Task):涉及角色性格或身份特征的展现。
  3. 交互调节任务(Interaction Regulation Task):要求智能体根据视觉线索调节对话节奏、语气或冲突处理方式。
  4. 交互结果任务(Interaction Outcome Task):评估智能体是否达成了预期的社交目标或结果。

2. 实验评估

研究人员对七种近期主流的多模态大型语言模型(MLLMs)进行了评估。实验设置了两种视觉输入模式:

  • Verbalized-vision(视觉描述化):将图像信息转化为文本描述后输入模型。
  • Direct-vision(直接视觉):模型直接处理图像输入。

3. 主要发现

评估结果揭示了一个明显的差距:局部角色演绎(Local Role Enactment)与交互管理(Interaction Management)之间存在显著的能力断层

  • 接近饱和的能力:在特定角色的表情表达和冲突处理方面,模型的表现已接近饱和水平。这意味着模型能够较好地执行静态的、角色特定的视觉信号生成或识别。
  • 显著的能力短板:在交互调节基于视觉线索的结果达成方面,模型的表现仍然 substantially more difficult(显著困难)。这表明,尽管模型能“看”到表情,但难以将这些视觉信号动态地整合到长期的社交策略中,以引导交互走向或解决复杂的社交矛盾。

关键要点

  • 视觉社交智能的缺失:现有社交智能基准过度依赖文本,忽视了面部表情、姿态、视线等视觉信号在社交互动中的核心作用。
  • 多维度的任务设计:新基准不仅测试“看”,更测试“用”。通过表情、特征、调节、结果四个任务层级,从静态感知延伸到动态交互管理。
  • 能力断层现象:MLLMs 在静态的角色扮演(如做出愤怒表情)上表现良好,但在动态的社交策略调整(如根据对方眼神改变对话策略)上表现薄弱。
  • 输入模式的影响:研究对比了“视觉转文本”与“直接视觉”两种输入方式,揭示了当前模型在直接利用视觉信息进行高阶社交推理时的局限性。
  • 数据规模:提供了 240 个场景、585 个角色和 2,340 个任务实例,为后续研究提供了标准化的评估平台。

意义与影响

这项研究对多模态人工智能的发展具有重要的指导意义:

  1. 重新定义社交智能:它指出真正的社交智能不仅仅是语言流畅,更包括对非语言视觉信号的敏锐感知和动态响应。这为评估下一代 AI 助手、虚拟人(Virtual Humans)和机器人提供了更全面的指标。
  2. 指明技术瓶颈:研究明确指出了当前 MLLMs 的短板在于“交互调节”和“视觉 grounded 的结果达成”。未来的模型优化应聚焦于如何将视觉感知更有效地转化为社交策略,而不仅仅是提升图像识别的准确率。
  3. 推动多模态模拟发展:通过提供开源的代码和数据集,该基准测试为社区提供了一个标准化的测试床,有助于加速多模态社交模拟技术的发展,使 AI 在客户服务、心理陪伴、教育辅导等需要高度社交敏感性的场景中变得更加自然和可信。
  4. 挑战“读懂空气”的能力:标题中的 "Read the Room" 隐喻了 AI 需要具备的情境感知能力。这项研究证明,目前的 AI 尚无法真正“读懂房间”,这为后续研究设定了明确的挑战目标:让 AI 从“被动响应”走向“主动社交感知”。
查看原文 →arxiv.org