← 返回信息流
AI 资讯雷峰网·3 小时前

生数科技发布Vidu S1实时交互模型

原标题:生数科技发布 Vidu S1,推动视频生成迈向“实时交互”新时代

速览

生数科技发布Vidu S1实时交互模型,具备实时视频通话、语音控制数字人行为、无限时长连续视频生成等能力,将AI视频从离线内容输出推向实时双向交流。该模型采用自回归扩散技术,无需针对角色训练,上传一张图片即可创建交互角色,支持540P/25FPS实时生成。Vidu S1可用于AI陪伴、虚拟偶像、互动直播等场景,已开启内测。

AI 深度解读

背景

随着视频生成大模型的快速发展,行业竞争已从单纯的画质、时长和生成速度的单点比拼,转向对实时性、可控性与交互性的系统级要求。传统视频大模型普遍采用“输入提示词—等待生成—播放结果”的离线模式,视频生成后内容和走向基本固定,用户与视频之间仍然是离线的“生成与观看”关系。2026年7月3日,在2026全球数字经济大会人工智能融合应用发展论坛上,生数科技(Shengshu Technology)创始人朱军发表题为《通用世界模型,推动数字世界与物理世界统一的新范式》的主题演讲,正式发布面向实时交互场景的新一代模型——Vidu S1 实时交互模型。同期,北京软件和信息服务业协会(BSIA)发布《2025年北京市数字经济标杆企业评价报告》,生数科技因在技术创新与产业应用方面的表现,入选“新模式新应用标杆企业”。

核心内容

Vidu S1 实时交互模型提供“实时可交互”的新一代视频生成能力,推动 AI 视频从“生成一段内容”迈向“持续进行互动”。模型支持实时视频通话和语音控制视频走向,用户不仅能通过语音控制数字人的行为,还能实现无限时长连续互动。同时,Vidu S1 支持 540P(960×540)高清分辨率、25FPS 帧率(最高支持 42FPS),可基于真人、动漫、萌宠等任意初始形象及个性化音色,快速创建专属交互角色。

在交互方式上,传统视频大模型需要用户输入提示词,等待生成后再播放,且视频内容固定;Vidu S1 则允许用户在视频通话过程中持续输入语音,模型结合语音内容、对话上下文和当前画面状态,实时生成角色的后续内容和动作。与传统数字人依赖“音频驱动口型+预设动作库”不同,Vidu S1 采用实时视频生成技术,将语音从驱动嘴型的音频信号升级为控制角色视觉行为的实时指令。模型不仅能生成与语音同步的口型,还能理解语义、意图与情绪,实时生成相匹配的表情、眼神、手势、身体姿态及全身动作,使数字人从“会说话的虚拟形象”进化为能够理解用户、即时回应并持续互动的生成式角色。

针对时长问题,传统视频生成模型通常一次只生成 3s–30s 的固定时长视频,且生成过程中难以加入新指令。Vidu S1 采用自回归扩散模型(AR + Diffusion)路线,不再一次性生成完整视频,而是基于已生成的历史画面,结合当前语音指令和对话上下文,持续预测并生成后续内容。当用户发出新语音指令时,模型可实时理解并调整角色的表情、动作及后续视频走向。Vidu S1 还首次实现了无限时长的实时视频生成,即使连续生成数小时,画面仍能保持稳定,不会漂移或崩坏。实现长时间连续互动还需解决角色身份稳定、动作自然连贯、持续接收指令并实时响应等问题,Vidu S1 做到了这几点的协同。

在角色创建方面,传统数字人需要上传多张图片或视频素材,经建模、角色绑定、口型适配和单独训练,制作周期长。Vidu S1 采用纯生成式技术路线,无需离线建模和训练。用户只需上传一张初始图片,模型即可理解角色身份、外观和视觉风格,并实时生成口型、表情、动作和身体姿态。无论是真人、动漫角色还是萌宠形象,均可快速转化为可实时互动的生成式角色。同时支持自定义音色,实现视觉形象与声音身份的统一。角色创建方式从“上传素材后等待训练”转变为“上传图片后直接互动”,大幅降低门槛。

为满足实时交互所需的流畅性,Vidu S1 在模型加速、推理引擎和集群部署策略上进行协同优化。模型侧基于 TurboDiffusion 推理加速框架,通过少步生成、低比特注意力 SageAttention、稀疏注意力 SLA 和 SpargeAttention 等优化技术,大幅降低单帧生成的计算成本,在消费级显卡上即可实现 540P 分辨率、25FPS(最高 42FPS)实时生成。系统侧基于 TurboServe 推理部署引擎,实现高效推理请求调度,持续记录用户输入、角色状态和历史画面,并根据交互状态动态调度计算资源。通过模型推理与流式服务的协同优化,Vidu S1 实现了从“把视频生成得更快”到“让视频持续在线、稳定输出、实时响应”的关键跨越。

Vidu S1 已开启内测,用户可通过以下方式体验:

  • 线上体验地址:https://www.vidu.cn/vidu-stream
  • API体验地址:https://platform.vidu.cn/live/landing
  • APP体验:在手机应用商店搜索「Vidu AI Pro」下载最新版本,进入APP内点击「Vidu S1」即可体验。

关键要点

  • 实时语音交互:用户可在视频通话中持续输入语音,模型实时理解语义、意图与情绪,同步生成口型、表情、手势、身体姿态等,实现全人身驱动的数字人互动。
  • 无限时长连续生成:采用自回归扩散模型,基于历史画面和对话上下文持续预测并生成后续内容,长时间运行下画面稳定不漂移,角色身份和动作保持连贯。
  • 一键创建交互角色:仅需一张初始图片(真人、动漫、萌宠等),无需建模和训练即可生成可实时交互的数字角色,支持自定义音色。
  • 高分辨率流畅帧率:支持 540P(960×540)分辨率、25FPS 帧率(最高 42FPS),在消费级显卡上即可实现实时生成。
  • 推理加速技术栈:集成 TurboDiffusion、SageAttention、SLA、SpargeAttention 等加速方法,以及 TurboServe 推理部署引擎,实现低延迟、高吞吐的流式服务。
  • 应用场景广泛:适用于 AI 情感陪伴、AI 虚拟偶像、互动直播、游戏 NPC、品牌数字人、智能客服、在线教育、XR 等,将数字角色从一次性内容资产升级为长期在线、持续互动的智能入口。

意义与影响

Vidu S1 的发布标志着视频生成模型从“离线生成、固定内容”向“实时交互、持续演化”的重大转型。它将语音指令从单纯的驱动口型的信号,提升为控制数字人视觉行为的实时指令,结合无限时长生成和角色即时创建能力,使 AI 视频生成真正具备了“对话式交互”的潜力。这不仅是技术指标的提升(分辨率、帧率、时长),更重新定义了人机交互的范式:用户不再被动观看预先制作好的视频,而是与一个生成式角色进行双向交流。

对于行业而言,Vidu S1 展示了实时视频生成进入视频通话、互动直播、XR 等场景的技术可行性,推动竞争焦点从画质和速度转向实时性与可控性。其轻量化的角色创建方式(单张图片即可)大幅降低了数字人应用的门槛,有望加速数字人在娱乐、教育、客服等领域的普及。同时,TurboDiffusion 等推理加速技术的实际落地也证明,实时高分辨率视频生成在消费级硬件上可以成为现实,为后续更大规模应用奠定了基础。总体来看,Vidu S1 推动了 AI 视频生成从“内容生产工具”向“交互智能体”的进化方向迈进。

查看原文 →leiphone.com