← 返回信息流
AI 资讯量子位·9 天前

将DSA注意力引入多模态,快手Keye2.0开启强化推理新范式

速览

快手最新发布的Keye2.0模型在多模态领域取得重要突破,其核心创新在于引入了DSA注意力机制。这一技术改进使得模型能够更精准地捕捉光影细节,深入理解图像中未尽之意。Keye2.0的推出标志着多模态大模型在强化推理能力上开启了新的范式,为复杂场景下的视觉理解提供了更强有力的支持。

AI 深度解读

背景

在人工智能从“基础感知”向“深度推理”演进的过程中,多模态大模型面临着两大核心挑战:一是如何处理超长视觉上下文带来的算力瓶颈与信息稀释问题;二是如何使模型从单纯的“观察者”进化为能解决复杂实际任务的“行动者”。

快手近期发布了自研多模态大语言模型 Keye 家族的最新一代主力基座——Keye-VL-2.0-30B-A3B。该模型不仅引入了稀疏注意力机制以突破长视频理解的技术壁垒,还首次解锁了 Agent 协作机制,旨在通过强化推理能力,重塑多模态底座,并推动其在快手真实业务生态中的深度落地。

核心内容

1. 架构创新:DSA 注意力机制的首次多模态落地 Keye-VL-2.0-30B-A3B 在底层架构上实现了关键跨越,首次将 DSA (DeepSeek Sparse Attention) 机制引入多模态理解场景。

  • 解决痛点:传统 Full Attention 在处理长视频时,Decode 计算量呈指数级增长,且存在核心信息稀释问题。
  • 技术原理:通过结合稀疏注意力与特征聚合,模型能在高噪环境下对长达小时级的视频序列进行信息提纯,精准捕捉关键帧并理清动态规律。
  • 性能提升
    • 支持 256K 超长上下文深度感知。
    • 长序列 Prefill(预填充)阶段成本降低 50%
    • 随着上下文拉长,Decode 成本曲线保持平缓,大幅摊薄推理成本。
  • 训练 Infra 重构:快手构建了专为长视频服务的训练基础设施,包括横向扩展的 ExtraIO 架构消除 IO 瓶颈、ViT-LM 异构并行、两级负载均衡及 ViT 激活值零显存优化,使长序列训练性能较开源 Baseline 翻倍。

2. 视频理解能力:时序感知与因果推理的 SOTA 表现 模型在细粒度视频时序理解基准(TimeLens)及多项权威榜单中展现出超越同级别甚至更大参数开源模型的能力,并逼近顶级闭源模型(如 Gemini 系列)。

  • 基准测试成绩
    • ActivityNet-TimeLens:mIoU 达 58.5,超越官方数据中的 Gemini-2.5-Pro (58.1) 及实测的 Gemini 3 Flash (57.0)。
    • QVHighlights-TimeLens:mIoU 达 70.1,大幅超过实测的 Gemini 3 Flash (49.5)。
    • LongVideoBench:得分 74.10,跨级逼近顶级闭源巨头。
    • VideoMME V2:打破“长上下文衰减”魔咒,输入帧数从 64 帧扩展至 512 帧时,平均准确率从 35.34% 逆势飙升至 42.44%。
  • 深度推理案例
    • 工艺解析:能精准识别制作陶杯的复杂手工工序,并将每个动作与视频时间轴实现毫秒级咬合。
    • 电竞高光判定:在《王者荣耀》对局视频中,模型不仅识别视觉特效,还能结合音画协同、叙事情绪(如“绝境翻盘”)及全局对比逻辑,精准判定高光时刻,而非仅依赖击杀提示。
    • 叙事解构:在长白山雪雕重建纪录片中,模型能追踪空间跳跃、提取灾难冲突因果,并升华至情感主题(如“振兴东北”的人文共情)。

3. Agent 协作机制:打通“感知-规划-执行”全链路 这是 Keye 系列首次内建 Agent 协作机制,使其具备在 Code、Tool、Search 等复杂场景下的系统级执行潜力。

  • Code Agent
    • 在 LivecodeBench v6 (77.10) 和 OJBench (39.20) 中领先同级别参数模型。
    • 在 SWE-bench Verified 任务中跑通 62.00 基线,具备定位并修复代码 Issue 的能力。
    • 在 HTML 前端生成等场景中,实现了结合执行反馈的自我纠错闭环。
  • Tool Agent
    • 在 TAU2-Bench (82.58)、BFCL-V4 (65.72) 等多模态 Agent 测试集中表现优异。
    • 具备强大的多步任务分解能力,能在复杂指令(如同时处理门店查询、距离测算、订单创建)中自主规划并调用十余次 API,且具备状态自检与容错逻辑。

4. 训练优化:MOPD 与 Context-RL 强化可靠性

  • MOPD (多专家策略蒸馏/合并):为解决多任务学习中的“灾难性遗忘”,快手引入跨模态 MOPD 技术。通过分段 re-tokenize 保证序列对齐,利用动态路由与参数融合整合垂域专家。独创的“分桶优势缩放”方法从 Token 级别强化感知与推理信号,抑制模板性干扰,并在重复崩溃治理中释放 Dense Reward 优势。
  • Context-RL (上下文强化学习)
    • 创新奖励信号:利用混合模态参考信息构建稠密细粒度奖励信号,实现超几何分布级别的事实性监督,压制多步推理中的幻觉倾向。
    • 严苛数据引擎:采用极致筛选与准确率过滤机制,剔除低质量样本,确保长上下文推演中的决策稳定性。

关键要点

  • 技术突破:首次将 DSA (DeepSeek Sparse Attention) 引入多模态,实现 256K 超长上下文支持,长序列推理成本大幅降低。
  • 性能领先:在 TimeLens、LongVideoBench、VideoMME V2 等基准测试中,Keye-VL-2.0-30B-A3B 超越了同级别开源模型,并在部分指标上超越或持平 Gemini-2.5-Pro 等顶级闭源模型。
  • 推理深化:模型具备从“画面标签识别”到“时序因果梳理”的进化能力,能理解视频中的情绪、叙事逻辑及复杂工艺细节。
  • Agent 能力:首次解锁 Agent 协作,在代码生成修复(SWE-bench)、工具调用(TAU2-Bench)及多步任务规划中展现出扎实的执行与容错能力。
  • 训练创新:通过 MOPD 技术克服灾难性遗忘,结合 Context-RL 和严苛数据引擎,显著提升了模型的事实准确性与逻辑可靠性。
  • 业务落地:模型已融入快手生成式推荐、内容治理及商业化投放等核心链路,并致力于通过 Video × Agent 重塑视频素材生产范式。

意义与影响

Keye-VL-2.0-30B-A3B 的发布标志着多模态大模型从“感知”向“深度推理”与“自主行动”迈出了关键一步。

  1. 技术范式革新:通过引入 DSA 机制和重构训练 Infra,快手证明了在 30B 参数规模下,通过架构优化和算法创新,可以突破算力瓶颈,实现接近超大参数模型甚至顶级闭源模型的性能,为行业提供了高性价比的长视频理解方案。
  2. Agent 实用化推进:内建 Agent 协作机制使得模型不再局限于被动回答,而是能够主动规划、调用工具并执行复杂任务,这为 AI 在真实业务场景(如自动化剪辑、代码辅助、智能客服)中的落地提供了坚实基础。
  3. 业务生态赋能:该模型直接服务于快手的内容与商业生态,通过提升推荐命中率、优化广告标签提取以及降低内容生产门槛,将前沿技术转化为实际的业务增长引擎,体现了“跑分不是终点,落地才是”的技术务实理念。
  4. 行业竞争格局:在与 Gemini 等全球顶尖模型的直接对比中展现出的
查看原文 →qbitai.com