技术博客arXiv cs.AI·2 小时前

Learn to Quantify Social Interaction with Constraints for Pedestrian Walking

AI 深度解读

在自动驾驶汽车、社交机器人等自主移动平台的发展中，长期人类路径预测（Long-term human path forecasting）是避免碰撞并制定高质量规划的关键环节。特别是在拥挤的人群环境中，行人之间的社交互动（Social interactions）对个体的行走决策有着深远影响。

尽管当前的研究已经考虑了社交互动因素，但大多数方法存在明显的局限性：它们往往无法揭示人与人之间具体发生了何种类型的社交互动，也无法阐明这些互动如何具体影响行人的决策过程。这种“黑盒”状态进一步限制了预测模型的鲁棒性（Robustness）。

此外，行人行走中的社交互动直观上数量庞大、形态复杂，且难以进行人工标注和量化。传统的监督学习方法依赖于大量带标签的数据，这在社交互动场景中几乎不可行。因此，如何无监督地量化并解释行人之间的社交互动，成为提升轨迹预测精度的核心挑战。

本文提出了一种名为 Learn to Cluster（学习聚类）的创新方法，旨在量化和解释行人之间的社交互动模式。该方法的核心思想是通过概率潜在变量生成模型，直接从序列轨迹观测中学习社交互动的结构，而无需任何人工标签。

传统的轨迹预测模型通常将社交互动视为一种隐式的上下文信息，或者通过简单的几何距离（如最近邻）来近似。然而，Learn to Cluster 方法认为社交互动是离散的、可分类的潜在模式。

该方法不依赖预先定义的标签，而是通过聚类算法自动发现数据中存在的社交互动模式。它将社交互动建模为概率潜在变量（Probabilistic latent variables），这些变量直接服务于对行人行为的分类。

Learn to Cluster 是一种生成式模型，它直接从行人的历史轨迹序列中学习。这意味着模型不需要额外的传感器数据或人工标注的互动类型标签。它通过分析行人随时间变化的位置序列，推断出潜在的社交互动结构。

这种设计使得模型具有高度的可扩展性（Scalable），能够处理任意数量的行人。无论场景中是两个人擦肩而过，还是几十人在广场上聚集，模型都能自适应地识别其中的互动模式。

在训练过程中，模型学习到的潜在变量（Latent variables）被用作分类社交互动的“标签”。这些潜在变量捕捉了行人之间互动的本质特征，例如避让、跟随、聚集或并行行走等。

由于这些潜在变量是从数据中自动学习得到的，它们能够自然地融入预测模型的训练流程中。预测模型可以利用这些潜在变量来更好地理解行人的意图，从而做出更准确的未来路径预测。

作者在多个轨迹预测基准数据集上进行了广泛的实验。结果表明，Learn to Cluster 方法能够有效地学习社交互动的模式，并将这些模式整合到行人轨迹预测中。与基线方法相比，该方法在预测精度和鲁棒性上均表现出优势，特别是在处理复杂社交场景时。

这项研究在自主移动平台的路径预测领域具有重要的理论和应用价值。

首先，它提供了一种可解释的社交互动量化框架。通过揭示行人之间具体的社交互动类型，研究人员和工程师可以更好地理解模型为何做出某些预测，从而增强系统的可信度。这对于安全关键型应用（如自动驾驶）至关重要。

其次，无监督学习的特性极大地降低了数据标注的成本。在现实世界中，获取大规模、高质量的带标签社交互动数据极其困难且昂贵。Learn to Cluster 方法利用未标注的轨迹数据即可学习有效的社交模式，这使得模型更容易在大规模真实场景中部署和迭代。

最后，该方法提升了预测模型的鲁棒性和泛化能力。通过显式地建模社交互动，模型能够更好地应对复杂多变的人群环境，减少因忽视社交规则而导致的预测错误和潜在碰撞风险。这对于提升社会机器人、自动驾驶汽车在拥挤环境中的安全性和流畅性具有深远影响。