AI 资讯雷峰网·3 小时前

自变量发布跨模态具身动作分词器X-Tokenizer 多模态对齐能力提升13.5%

原标题：自变量发布跨模态具身动作分词器 X-Tokenizer，多模态对齐能力提升 13.5%，长程任务性能提升 8.25%

速览

自变量机器人推出跨模态具身动作分词器X-Tokenizer，采用轻量级编码器-语义残差量化-解码器架构，对连续动作进行语义化离散化。它通过掩码动作建模、视觉-语言特征对齐和未来帧预测等跨模态监督信号，使动作Token与视觉语言语义共享表示空间。实验证明该分词器在预训练阶段便提升了VLA模型性能，助力具身智能模型在长程任务中的实际落地。

AI 深度解读

X-Tokenizer：自变量机器人重构VLA动作分词器，推动多模态对齐与长程具身智能突破

自变量机器人（X Square Robot）近日发布跨模态具身动作分词器 X-Tokenizer，将视觉-语言-动作（VLA）模型中的动作离散化问题，从传统“压缩-重建”优化，重新定义为“多模态推理与动作之间的语义接口学习”问题。该分词器采用轻量级“编码器-语义残差量化（SRQ）-解码器”架构，在覆盖17个机械臂系列、240万条轨迹（包含20亿动作帧）的海量数据上预训练后冻结，作为可复用表示模块插入VLA主干。实验结果显示，相比主流动作分词器 FAST，其多模态对齐能力提升13.5%，长程任务性能提升8.25%，在RoboTwin 2.0基准上达到82.8分，在真机桌面任务中综合表现优于或打平业界主流模型（Pi 0、Pi 0.5、X-VLA）。

背景

具身智能VLA模型是将预训练的视觉-语言模型（VLM）与动作专家（Action Expert）连接起来的关键范式。VLM接收图像和语言指令，输出隐藏状态；Action Expert将这些隐藏状态转化为机器人可执行的连续动作指令。

然而，两者表示方法存在固有不匹配：VLM模型输出离散表示，而机器人需要接收连续指令。在预训练阶段，动作分词器（Action Tokenizer）必须将连续动作拆分压缩为离散表示，以便VLM-style主干能够预测这些离散动作Token。

传统动作分词器（如FAST、VQ-BeT等）以最小化重建误差为唯一目标，生产仅保留几何信息的纯几何Token，无法有效加速预训练收敛或与视觉-语言语义深度融合。这种局限在多模态VLA系统中尤为突出，因为动作Token预测的损失不仅是辅助目标，还会直接塑造共享隐藏状态，影响下游连续动作专家的性能。

自变量机器人发现，动作分词器的核心价值在于动作Token是否具有明确语义、是否能加速收敛、是否能最终提升VLA模型输出连续动作的整体性能。现有方法多将分词器简化为内部压缩模块，未能充分利用多模态上下文进行设计。

核心内容

自变量机器人提出的 X-Tokenizer 通过创新架构和监督信号，成功将动作分词器重塑为多模态语义桥梁。

架构设计：采用“编码器-语义残差量化（SRQ）-解码器”轻量级结构。用SRQ替换传统标准残差向量量化（RVQ），在这一层显式分离动作意图。输入为T帧动作块（默认T=64，压缩至M=16个slot），经过Perceiver-style编码器将delta动作（相对于锚点位置）降采样为M个连续潜变量；SRQ对这些潜变量进行多层残差量化（默认Q=4层），解码器则从量化潜变量重建可执行动作。SRQ采用不对称监督：仅第一层（q=1）通过掩码动作建模（MAM）学习粗粒度动作意图，形成离散动作语言；第2-4层保留细粒度几何残差，仅由重建损失驱动。

预训练监督信号：在标准重建损失基础上，引入三类跨模态监督：

MAM：对顶层离散代码序列进行BERT-style掩码预测，使第一层成为内部“动作语言”，捕获重复运动模式。
对比对齐（Contrastive Alignment）：将编码器潜变量与冻结预训练VLM（如Qwen2.5-VL-7B）的融合视觉-语言特征进行全局与局部对比学习，确保动作Token与视觉-语言语义共享同一表示空间。
下一帧视觉-语言特征预测：要求量化潜变量预测下一帧的视觉-语言特征，增强前瞻物理一致性。

这些辅助头仅在预训练时使用，推理阶段移除，不会引入额外开销。预训练后冻结的X-Tokenizer作为可复用模块插入下游VLA主干：主干VLM的隐藏状态共享于连续Flow Matching专家，离散分支使用X-Tokenizer编码的动作Token作为自回归监督信号。

实验验证：

多模态对齐分析：在64帧动作块与VLM特征的余弦相似度热力图中，对角线峰值约0.6，呈现强时间对齐；形态相似的机械臂间相关性高，表明跨装备共享知识。
噪声鲁棒性：在σ=0.008高斯噪声下，X-Tokenizer的WER（Word Error Rate，越低越好）为0.526（第一层意图ID几乎不变），而FAST为1.445（发生语义反转）。
RoboTwin 2.0基准：使用WALL-OSS + X-Tokenizer，综合得分82.8，优于Pi 0、Pi 0.5、X-VLA，尤其在视觉条件变化的困难任务中领先。
真机测试：在7个桌面任务（5短期操作+2长程推理）上，X-Tokenizer综合性能优于或打平四种比较方法（原始WALL-OSS、FAST、仅重建的4级RVQ、完整X-Tokenizer），长程推理任务提升8.25%。

关键要点

X-Tokenizer 将VLA动作分词器重新定义为多模态语义接口，而非单纯动作压缩模块。
SRQ架构通过不对称监督（MAM主导第一层，重建主导更深层），实现动作意图与几何残差的显式分离。
三类预训练监督信号（MAM、VLM对比对齐、下一帧VL特征预测）使动作Token提前与视觉-语言语义共享空间。
预训练后冻结，推理时仅保留轻量编码器-SRQ-解码器核心，无额外性能开销。
相比FAST，多模态对齐能力提升13.5%，长程任务性能提升8.25%，在RoboTwin 2.0和真机测试中均表现领先。
X-Tokenizer 支持跨装备复用（17个机械臂系列、240万条轨迹），冻结后可直接插入任意VLA主干。

意义与影响

X-Tokenizer的突破标志着VLA动作分词器研究从“压缩优先”转向“语义优先”。它证明：动作分词器不仅能加速预训练收敛，还能作为多模态语义桥梁，直接提升视觉-动作对齐与长程规划能力。这对当前主流VLA模型（如WALL-OSS、π系列）具有直接可复用性。

在具身智能领域，这一成果推动技术范式升级：未来的动作表示不再局限于几何精度，而是与语言指令、视觉上下文深度融合，有助于解决长期任务、视觉扰动下的泛化难题。相关研究方向包括动态调整SRQ层级平衡、扩展至灵巧手或关节空间控制等。

对于产业而言，X-Tokenizer作为开源/可复用模块，将降低VLA模型训练门槛，加速国产具身智能在桌面操作、工业协作等场景的落地。长期来看，它为构建更通用、可靠的具身基础模型奠定基础，助力中国在全球具身智能赛道保持领先。

查看原文 →leiphone.com

自变量发布跨模态具身动作分词器X-Tokenizer 多模态对齐能力提升13.5%

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐