技术博客arXiv cs.AI·1 天前

SurgVLA-Bench: Towards Evaluating Vision-Language-Action Models for Laparoscopic Surgical Robotics

AI 深度解读

背景

视觉-语言-动作（Vision-Language-Action, VLA）模型是具身智能领域的重要方向，在机器人操作、自动驾驶等场景中展现出强大的潜力。手术机器人作为对精度、安全性和语义理解要求极为严苛的应用场景，自然成为 VLA 模型落地的重要方向之一。然而，尽管通用机器人领域已有大量 VLA 基准测试（benchmark），专门针对手术场景的标准化评估平台却长期缺失。手术机器人面临的内镜视野受限、视角受限、频繁遮挡等物理约束，使得通用基准难以直接迁移，亟需一个面向腹腔镜手术机器人的系统性评估框架。

核心内容

本文提出了 SurgVLA-Bench，这是首个专门用于评估腹腔镜手术机器人 VLA 模型的综合性基准测试。该工作基于 SurRoL 仿真平台构建，核心贡献包括任务分类体系和评估框架两个层面：

任务分类体系： 构建了一个从原子动作（atomic actions）到完整手术流程（complete surgical procedures）的层级化任务分类法，覆盖了腹腔镜手术中的多层次操作需求，使评估能够兼顾细粒度动作精度和端到端手术任务完成度。

多维度评估框架： 从两个核心维度对模型进行评估——动作精度（action accuracy）和语义一致性（semantic consistency），前者衡量模型执行操作的物理准确性，后者衡量模型对指令语义的理解与遵循程度。

模型评估： 作者系统性地评估了两类代表性 VLA 范式：

自回归模型（autoregressive models）： 以 OpenVLA 为代表
流匹配模型（flow matching models）： 以 π₀、π₀.₅ 和 SmolVLA 为代表

主要实验发现：

自回归模型在语义理解方面表现更优，能够更好地捕捉和遵循语言指令的语义意图。
流匹配模型在任务精度方面往往更高，但在泛化能力上存在一定的权衡（generalization trade-offs）。
即使是表现最好的模型，距离"令人满意"的水平仍有显著差距。腹腔镜手术中固有的物理瓶颈——受限的内镜视野、受限的观察角度以及频繁的遮挡——仍然是当前模型难以逾越的根本性障碍。

代码和数据已公开可用。

关键要点

SurgVLA-Bench 是首个面向腹腔镜手术机器人的 VLA 模型综合评估基准
基于 SurRoL 仿真平台构建，提供从原子动作到完整手术流程的层级化任务分类
评估框架同时考察动作精度和语义一致性两个维度
自回归模型（如 OpenVLA）在语义理解上占优，流匹配模型（如 π₀、π₀.₅、SmolVLA）在任务精度上占优
流匹配模型存在泛化能力与精度之间的权衡
当前所有 VLA 模型在手术场景中距离实用水平仍有较大差距
内镜视野受限、视角受限和频繁遮挡是手术场景特有的物理瓶颈，是模型性能的根本制约因素

意义与影响

SurgVLA-Bench 的提出填补了手术机器人领域 VLA 模型标准化评估的空白。该基准不仅为研究者提供了一个可量化的比较平台，更重要的是揭示了当前 VLA 模型在手术场景中的真实能力边界。实验结论明确指出，手术场景的物理约束（视野受限、遮挡等）是模型性能的核心瓶颈，这一发现为后续研究指明了方向——未来的 VLA 模型设计需要更加针对性地处理感知受限条件下的鲁棒决策问题，而非简单地将通用机器人领域的方案迁移到手术场景中。此外，该工作公开了代码和数据，有望推动手术机器人具身智能领域的开放协作与快速发展。

查看原文 →arxiv.org

SurgVLA-Bench: Towards Evaluating Vision-Language-Action Models for Laparoscopic Surgical Robotics

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐