自变量发布跨模态具身动作分词器X-Tokenizer 多模态对齐能力提升13.5%
速览
自变量机器人推出跨模态具身动作分词器X-Tokenizer,采用轻量级编码器-语义残差量化-解码器架构,对连续动作进行语义化离散化。它通过掩码动作建模、视觉-语言特征对齐和未来帧预测等跨模态监督信号,使动作Token与视觉语言语义共享表示空间。实验证明该分词器在预训练阶段便提升了VLA模型性能,助力具身智能模型在长程任务中的实际落地。
AI 深度解读
X-Tokenizer:自变量机器人重构VLA动作分词器,推动多模态对齐与长程具身智能突破
自变量机器人(X Square Robot)近日发布跨模态具身动作分词器 X-Tokenizer,将视觉-语言-动作(VLA)模型中的动作离散化问题,从传统“压缩-重建”优化,重新定义为“多模态推理与动作之间的语义接口学习”问题。该分词器采用轻量级“编码器-语义残差量化(SRQ)-解码器”架构,在覆盖17个机械臂系列、240万条轨迹(包含20亿动作帧)的海量数据上预训练后冻结,作为可复用表示模块插入VLA主干。实验结果显示,相比主流动作分词器 FAST,其多模态对齐能力提升13.5%,长程任务性能提升8.25%,在RoboTwin 2.0基准上达到82.8分,在真机桌面任务中综合表现优于或打平业界主流模型(Pi 0、Pi 0.5、X-VLA)。
背景
具身智能VLA模型是将预训练的视觉-语言模型(VLM)与动作专家(Action Expert)连接起来的关键范式。VLM接收图像和语言指令,输出隐藏状态;Action Expert将这些隐藏状态转化为机器人可执行的连续动作指令。
然而,两者表示方法存在固有不匹配:VLM模型输出离散表示,而机器人需要接收连续指令。在预训练阶段,动作分词器(Action Tokenizer)必须将连续动作拆分压缩为离散表示,以便VLM-style主干能够预测这些离散动作Token。
传统动作分词器(如FAST、VQ-BeT等)以最小化重建误差为唯一目标,生产仅保留几何信息的纯几何Token,无法有效加速预训练收敛或与视觉-语言语义深度融合。这种局限在多模态VLA系统中尤为突出,因为动作Token预测的损失不仅是辅助目标,还会直接塑造共享隐藏状态,影响下游连续动作专家的性能。
自变量机器人发现,动作分词器的核心价值在于动作Token是否具有明确语义、是否能加速收敛、是否能最终提升VLA模型输出连续动作的整体性能。现有方法多将分词器简化为内部压缩模块,未能充分利用多模态上下文进行设计。
核心内容
自变量机器人提出的 X-Tokenizer 通过创新架构和监督信号,成功将动作分词器重塑为多模态语义桥梁。
架构设计:采用“编码器-语义残差量化(SRQ)-解码器”轻量级结构。用SRQ替换传统标准残差向量量化(RVQ),在这一层显式分离动作意图。输入为T帧动作块(默认T=64,压缩至M=16个slot),经过Perceiver-style编码器将delta动作(相对于锚点位置)降采样为M个连续潜变量;SRQ对这些潜变量进行多层残差量化(默认Q=4层),解码器则从量化潜变量重建可执行动作。SRQ采用不对称监督:仅第一层(q=1)通过掩码动作建模(MAM)学习粗粒度动作意图,形成离散动作语言;第2-4层保留细粒度几何残差,仅由重建损失驱动。
预训练监督信号:在标准重建损失基础上,引入三类跨模态监督:
- MAM:对顶层离散代码序列进行BERT-style掩码预测,使第一层成为内部“动作语言”,捕获重复运动模式。
- 对比对齐(Contrastive Alignment):将编码器潜变量与冻结预训练VLM(如Qwen2.5-VL-7B)的融合视觉-语言特征进行全局与局部对比学习,确保动作Token与视觉-语言语义共享同一表示空间。
- 下一帧视觉-语言特征预测:要求量化潜变量预测下一帧的视觉-语言特征,增强前瞻物理一致性。
这些辅助头仅在预训练时使用,推理阶段移除,不会引入额外开销。预训练后冻结的X-Tokenizer作为可复用模块插入下游VLA主干:主干VLM的隐藏状态共享于连续Flow Matching专家,离散分支使用X-Tokenizer编码的动作Token作为自回归监督信号。
实验验证:
- 多模态对齐分析:在64帧动作块与VLM特征的余弦相似度热力图中,对角线峰值约0.6,呈现强时间对齐;形态相似的机械臂间相关性高,表明跨装备共享知识。
- 噪声鲁棒性:在σ=0.008高斯噪声下,X-Tokenizer的WER(Word Error Rate,越低越好)为0.526(第一层意图ID几乎不变),而FAST为1.445(发生语义反转)。
- RoboTwin 2.0基准:使用WALL-OSS + X-Tokenizer,综合得分82.8,优于Pi 0、Pi 0.5、X-VLA,尤其在视觉条件变化的困难任务中领先。
- 真机测试:在7个桌面任务(5短期操作+2长程推理)上,X-Tokenizer综合性能优于或打平四种比较方法(原始WALL-OSS、FAST、仅重建的4级RVQ、完整X-Tokenizer),长程推理任务提升8.25%。
关键要点
- X-Tokenizer 将VLA动作分词器重新定义为多模态语义接口,而非单纯动作压缩模块。
- SRQ架构通过不对称监督(MAM主导第一层,重建主导更深层),实现动作意图与几何残差的显式分离。
- 三类预训练监督信号(MAM、VLM对比对齐、下一帧VL特征预测)使动作Token提前与视觉-语言语义共享空间。
- 预训练后冻结,推理时仅保留轻量编码器-SRQ-解码器核心,无额外性能开销。
- 相比FAST,多模态对齐能力提升13.5%,长程任务性能提升8.25%,在RoboTwin 2.0和真机测试中均表现领先。
- X-Tokenizer 支持跨装备复用(17个机械臂系列、240万条轨迹),冻结后可直接插入任意VLA主干。
意义与影响
X-Tokenizer的突破标志着VLA动作分词器研究从“压缩优先”转向“语义优先”。它证明:动作分词器不仅能加速预训练收敛,还能作为多模态语义桥梁,直接提升视觉-动作对齐与长程规划能力。这对当前主流VLA模型(如WALL-OSS、π系列)具有直接可复用性。
在具身智能领域,这一成果推动技术范式升级:未来的动作表示不再局限于几何精度,而是与语言指令、视觉上下文深度融合,有助于解决长期任务、视觉扰动下的泛化难题。相关研究方向包括动态调整SRQ层级平衡、扩展至灵巧手或关节空间控制等。
对于产业而言,X-Tokenizer作为开源/可复用模块,将降低VLA模型训练门槛,加速国产具身智能在桌面操作、工业协作等场景的落地。长期来看,它为构建更通用、可靠的具身基础模型奠定基础,助力中国在全球具身智能赛道保持领先。
