AI 资讯雷峰网·4 小时前

CVPR 2026：TransPrune追踪视觉Token演化，实现无损压缩与60%加速

原标题：GAIR Paper 106｜追踪视觉 Token 的演化轨迹，实现无损压缩与 60% 推理加速｜CVPR 2026

速览

针对多模态大模型推理成本高问题，研究团队提出TransPrune方法，从演化视角衡量视觉Token重要性。该方法结合Token Transition Variation与指令引导注意力，在保持性能无损前提下降低60%计算开销。实验表明其可与现有压缩范式互补，为高效多模态推理提供新方案。

AI 深度解读

GAIR Paper 106｜追踪视觉 Token 的演化轨迹，实现无损压缩与 60% 推理加速｜CVPR 2026

背景

近年来，以 LLaVA、Qwen 系列为代表的大视觉语言模型（LVLM）极大地推动了多模态智能的发展，在视觉理解与推理任务中展现了卓越的性能。然而，随着应用场景向高分辨率图像和视频扩展，模型需要处理海量的视觉 Token。这些 Token 在整个推理过程中持续参与计算，导致高昂的推理成本，成为制约模型效率的关键瓶颈。

因此，如何在尽可能不影响模型性能的前提下，识别并保留真正重要的视觉 Token，从而降低计算开销，已成为当前多模态大模型研究的核心课题。

来自山东大学和 MBZUAI（穆罕默德·本·扎耶德人工智能大学）的研究团队提出了 TransPrune 框架。该框架从“演化”的视角重新衡量视觉 Token 的重要性，旨在保持整体性能无损的同时，将推理成本降低 60%。

核心内容

TransPrune 的核心创新在于突破了传统静态重要性评估的局限，提出通过观察 Token 在前向传播过程中的“变化轨迹”来量化其重要性。

传统方法的局限性

现有的 Token Pruning 方法主要依赖以下两种机制，但均存在明显缺陷：

基于 Attention Score 的方法：假设“被关注得多的 Token 更重要”。然而，Attention 机制存在位置偏差（Attention Sink），导致一些与语义无关的 Token 也可能获得高权重，从而干扰重要性判断的准确性。
基于 Token Similarity 的方法：主要从冗余性角度出发，通过衡量 Token 间的相似程度进行融合。这类方法往往忽略了具体任务指令的影响，难以针对不同问题动态调整 Token 的重要性分配。

新视角：Token Transition（Token 转换）

论文发现，重要 Token 并非静态存在，而是在模型内部持续发生“演化”。当一个视觉 Token 承载更重要的语义信息时，它在传播过程中会经历更显著的表征变化。基于此，论文定义了 Token Transition，并从两个维度对其进行量化：

Magnitude Change（幅值变化）：即 Token 向量 L2 范数的变化。重要语义 Token 通常会表现出更明显的幅值变化。
Direction Change（方向变化）：即 Token 表示方向的偏移，通过输入与输出表示之间的余弦相似度进行衡量。

实验表明，真正重要的 Token 往往同时具有更大的 Magnitude 变化和更显著的 Direction 变化，且这一现象在 LLM 的中间层尤为突出。

TransPrune 框架架构

TransPrune 由两个互补模块构成，分别从“Token 自身演化”和“任务语义约束”两个角度衡量重要性：

Token Transition Variation (TTV)：
- 作为核心评分机制，TTV 在模型前向传播过程中持续跟踪每个视觉 Token 在不同层之间的表示变化。
- 针对单层 TTV 噪声较大、易受局部波动影响的问题，论文引入了跨层累积机制。通过观察 Token 在多个层中的持续变化趋势，更可靠地捕捉其“长期语义贡献”，从而获得更稳定的重要性估计。
Instruction-Guided Attention (IGA)：
- 仅依靠 TTV 无法对齐具体问题指令的需求。IGA 模块利用文本指令与视觉 Token 之间的注意力关联，显式建模当前问题对不同视觉区域的关注程度。
- 该模块为 Token 筛选提供了任务层面的约束与引导，确保保留的 Token 符合当前推理任务的需求。

实验效果与扩展性

性能对比：在与现有的 within-LLM 方法对比中，TransPrune 在较低的 TFLOPs（每秒万亿次浮点运算）消耗下，依然取得了领先的性能表现。
组合效应：论文探索了 TransPrune 与 projector-based 压缩方法（如 VisionZip）的组合。结果显示，结合使用可在额外减少约三分之一计算量的情况下，模型性能仅出现极小幅度下降。这证明了 Token Transition 所刻画的“动态重要性”与现有压缩范式具有良好的互补性，可作为插件式模块嵌入到其他高效推理框架中。

关键要点

范式转移：从静态的“谁被关注”（Attention Score）转向动态的“谁在变化”（Token Transition），重新定义 Token 的重要性衡量标准。
双重量化指标：通过 Magnitude Change（L2 范数变化）和 Direction Change（余弦相似度偏移）两个维度量化 Token 的演化强度。
跨层累积机制：为了解决单层评估噪声大的问题，TTV 模块采用跨层累积策略，捕捉 Token 的长期语义贡献。
任务感知引导：引入 IGA 模块，通过文本指令与视觉特征的注意力关联，确保 Token 筛选符合具体任务需求。
显著加速：在保持性能无损的前提下，TransPrune 实现了 60% 的推理加速。
高度兼容：该框架具有插件式特性，可与 VisionZip 等 projector-based 压缩方法结合，进一步降低计算开销。

意义与影响

这项工作不仅为高效视觉语言模型的研究提供了一套全新的解决方案，更在理论层面带来了重要启发：

重新理解信息流动：它启发研究者从动态表征演化的角度重新审视 Transformer 中的信息流动过程，揭示了重要语义信息在网络深层传播时的动态特征。
高效推理新路径：TransPrune 证明了通过追踪 Token 演化轨迹可以有效区分冗余与关键信息，为未来多模态模型的高效推理开辟了新的可能性。
通用性潜力：由于其作为插件式模块的特性，该方法易于集成到现有的高效推理框架中，有望推动多模态大模型在资源受限场景下的广泛应用。

查看原文 →leiphone.com