AI 资讯量子位·9 天前

将DSA注意力引入多模态，快手Keye2.0开启强化推理新范式

速览

快手最新发布的Keye2.0模型在多模态领域取得重要突破，其核心创新在于引入了DSA注意力机制。这一技术改进使得模型能够更精准地捕捉光影细节，深入理解图像中未尽之意。Keye2.0的推出标志着多模态大模型在强化推理能力上开启了新的范式，为复杂场景下的视觉理解提供了更强有力的支持。

在人工智能从“基础感知”向“深度推理”演进的过程中，多模态大模型面临着两大核心挑战：一是如何处理超长视觉上下文带来的算力瓶颈与信息稀释问题；二是如何使模型从单纯的“观察者”进化为能解决复杂实际任务的“行动者”。

快手近期发布了自研多模态大语言模型 Keye 家族的最新一代主力基座——Keye-VL-2.0-30B-A3B。该模型不仅引入了稀疏注意力机制以突破长视频理解的技术壁垒，还首次解锁了 Agent 协作机制，旨在通过强化推理能力，重塑多模态底座，并推动其在快手真实业务生态中的深度落地。

1. 架构创新：DSA 注意力机制的首次多模态落地 Keye-VL-2.0-30B-A3B 在底层架构上实现了关键跨越，首次将 DSA (DeepSeek Sparse Attention) 机制引入多模态理解场景。

解决痛点：传统 Full Attention 在处理长视频时，Decode 计算量呈指数级增长，且存在核心信息稀释问题。
技术原理：通过结合稀疏注意力与特征聚合，模型能在高噪环境下对长达小时级的视频序列进行信息提纯，精准捕捉关键帧并理清动态规律。
性能提升：
- 支持 256K 超长上下文深度感知。
- 长序列 Prefill（预填充）阶段成本降低 50%。
- 随着上下文拉长，Decode 成本曲线保持平缓，大幅摊薄推理成本。
训练 Infra 重构：快手构建了专为长视频服务的训练基础设施，包括横向扩展的 ExtraIO 架构消除 IO 瓶颈、ViT-LM 异构并行、两级负载均衡及 ViT 激活值零显存优化，使长序列训练性能较开源 Baseline 翻倍。

2. 视频理解能力：时序感知与因果推理的 SOTA 表现 模型在细粒度视频时序理解基准（TimeLens）及多项权威榜单中展现出超越同级别甚至更大参数开源模型的能力，并逼近顶级闭源模型（如 Gemini 系列）。

基准测试成绩：
- ActivityNet-TimeLens：mIoU 达 58.5，超越官方数据中的 Gemini-2.5-Pro (58.1) 及实测的 Gemini 3 Flash (57.0)。
- QVHighlights-TimeLens：mIoU 达 70.1，大幅超过实测的 Gemini 3 Flash (49.5)。
- LongVideoBench：得分 74.10，跨级逼近顶级闭源巨头。
- VideoMME V2：打破“长上下文衰减”魔咒，输入帧数从 64 帧扩展至 512 帧时，平均准确率从 35.34% 逆势飙升至 42.44%。
深度推理案例：
- 工艺解析：能精准识别制作陶杯的复杂手工工序，并将每个动作与视频时间轴实现毫秒级咬合。
- 电竞高光判定：在《王者荣耀》对局视频中，模型不仅识别视觉特效，还能结合音画协同、叙事情绪（如“绝境翻盘”）及全局对比逻辑，精准判定高光时刻，而非仅依赖击杀提示。
- 叙事解构：在长白山雪雕重建纪录片中，模型能追踪空间跳跃、提取灾难冲突因果，并升华至情感主题（如“振兴东北”的人文共情）。

3. Agent 协作机制：打通“感知-规划-执行”全链路 这是 Keye 系列首次内建 Agent 协作机制，使其具备在 Code、Tool、Search 等复杂场景下的系统级执行潜力。

Code Agent：
- 在 LivecodeBench v6 (77.10) 和 OJBench (39.20) 中领先同级别参数模型。
- 在 SWE-bench Verified 任务中跑通 62.00 基线，具备定位并修复代码 Issue 的能力。
- 在 HTML 前端生成等场景中，实现了结合执行反馈的自我纠错闭环。
Tool Agent：
- 在 TAU2-Bench (82.58)、BFCL-V4 (65.72) 等多模态 Agent 测试集中表现优异。
- 具备强大的多步任务分解能力，能在复杂指令（如同时处理门店查询、距离测算、订单创建）中自主规划并调用十余次 API，且具备状态自检与容错逻辑。

4. 训练优化：MOPD 与 Context-RL 强化可靠性

MOPD (多专家策略蒸馏/合并)：为解决多任务学习中的“灾难性遗忘”，快手引入跨模态 MOPD 技术。通过分段 re-tokenize 保证序列对齐，利用动态路由与参数融合整合垂域专家。独创的“分桶优势缩放”方法从 Token 级别强化感知与推理信号，抑制模板性干扰，并在重复崩溃治理中释放 Dense Reward 优势。
Context-RL (上下文强化学习)：
- 创新奖励信号：利用混合模态参考信息构建稠密细粒度奖励信号，实现超几何分布级别的事实性监督，压制多步推理中的幻觉倾向。
- 严苛数据引擎：采用极致筛选与准确率过滤机制，剔除低质量样本，确保长上下文推演中的决策稳定性。

技术突破：首次将 DSA (DeepSeek Sparse Attention) 引入多模态，实现 256K 超长上下文支持，长序列推理成本大幅降低。
性能领先：在 TimeLens、LongVideoBench、VideoMME V2 等基准测试中，Keye-VL-2.0-30B-A3B 超越了同级别开源模型，并在部分指标上超越或持平 Gemini-2.5-Pro 等顶级闭源模型。
推理深化：模型具备从“画面标签识别”到“时序因果梳理”的进化能力，能理解视频中的情绪、叙事逻辑及复杂工艺细节。
Agent 能力：首次解锁 Agent 协作，在代码生成修复（SWE-bench）、工具调用（TAU2-Bench）及多步任务规划中展现出扎实的执行与容错能力。
训练创新：通过 MOPD 技术克服灾难性遗忘，结合 Context-RL 和严苛数据引擎，显著提升了模型的事实准确性与逻辑可靠性。
业务落地：模型已融入快手生成式推荐、内容治理及商业化投放等核心链路，并致力于通过 Video × Agent 重塑视频素材生产范式。

Keye-VL-2.0-30B-A3B 的发布标志着多模态大模型从“感知”向“深度推理”与“自主行动”迈出了关键一步。

技术范式革新：通过引入 DSA 机制和重构训练 Infra，快手证明了在 30B 参数规模下，通过架构优化和算法创新，可以突破算力瓶颈，实现接近超大参数模型甚至顶级闭源模型的性能，为行业提供了高性价比的长视频理解方案。
Agent 实用化推进：内建 Agent 协作机制使得模型不再局限于被动回答，而是能够主动规划、调用工具并执行复杂任务，这为 AI 在真实业务场景（如自动化剪辑、代码辅助、智能客服）中的落地提供了坚实基础。
业务生态赋能：该模型直接服务于快手的内容与商业生态，通过提升推荐命中率、优化广告标签提取以及降低内容生产门槛，将前沿技术转化为实际的业务增长引擎，体现了“跑分不是终点，落地才是”的技术务实理念。
行业竞争格局：在与 Gemini 等全球顶尖模型的直接对比中展现出的