AI 资讯雷峰网·3 小时前

生数科技发布Vidu S1实时交互模型

原标题：生数科技发布 Vidu S1，推动视频生成迈向“实时交互”新时代

速览

生数科技发布Vidu S1实时交互模型，具备实时视频通话、语音控制数字人行为、无限时长连续视频生成等能力，将AI视频从离线内容输出推向实时双向交流。该模型采用自回归扩散技术，无需针对角色训练，上传一张图片即可创建交互角色，支持540P/25FPS实时生成。Vidu S1可用于AI陪伴、虚拟偶像、互动直播等场景，已开启内测。

AI 深度解读

背景

随着视频生成大模型的快速发展，行业竞争已从单纯的画质、时长和生成速度的单点比拼，转向对实时性、可控性与交互性的系统级要求。传统视频大模型普遍采用“输入提示词—等待生成—播放结果”的离线模式，视频生成后内容和走向基本固定，用户与视频之间仍然是离线的“生成与观看”关系。2026年7月3日，在2026全球数字经济大会人工智能融合应用发展论坛上，生数科技（Shengshu Technology）创始人朱军发表题为《通用世界模型，推动数字世界与物理世界统一的新范式》的主题演讲，正式发布面向实时交互场景的新一代模型——Vidu S1 实时交互模型。同期，北京软件和信息服务业协会（BSIA）发布《2025年北京市数字经济标杆企业评价报告》，生数科技因在技术创新与产业应用方面的表现，入选“新模式新应用标杆企业”。

核心内容

Vidu S1 实时交互模型提供“实时可交互”的新一代视频生成能力，推动 AI 视频从“生成一段内容”迈向“持续进行互动”。模型支持实时视频通话和语音控制视频走向，用户不仅能通过语音控制数字人的行为，还能实现无限时长连续互动。同时，Vidu S1 支持 540P（960×540）高清分辨率、25FPS 帧率（最高支持 42FPS），可基于真人、动漫、萌宠等任意初始形象及个性化音色，快速创建专属交互角色。

在交互方式上，传统视频大模型需要用户输入提示词，等待生成后再播放，且视频内容固定；Vidu S1 则允许用户在视频通话过程中持续输入语音，模型结合语音内容、对话上下文和当前画面状态，实时生成角色的后续内容和动作。与传统数字人依赖“音频驱动口型+预设动作库”不同，Vidu S1 采用实时视频生成技术，将语音从驱动嘴型的音频信号升级为控制角色视觉行为的实时指令。模型不仅能生成与语音同步的口型，还能理解语义、意图与情绪，实时生成相匹配的表情、眼神、手势、身体姿态及全身动作，使数字人从“会说话的虚拟形象”进化为能够理解用户、即时回应并持续互动的生成式角色。

针对时长问题，传统视频生成模型通常一次只生成 3s–30s 的固定时长视频，且生成过程中难以加入新指令。Vidu S1 采用自回归扩散模型（AR + Diffusion）路线，不再一次性生成完整视频，而是基于已生成的历史画面，结合当前语音指令和对话上下文，持续预测并生成后续内容。当用户发出新语音指令时，模型可实时理解并调整角色的表情、动作及后续视频走向。Vidu S1 还首次实现了无限时长的实时视频生成，即使连续生成数小时，画面仍能保持稳定，不会漂移或崩坏。实现长时间连续互动还需解决角色身份稳定、动作自然连贯、持续接收指令并实时响应等问题，Vidu S1 做到了这几点的协同。

在角色创建方面，传统数字人需要上传多张图片或视频素材，经建模、角色绑定、口型适配和单独训练，制作周期长。Vidu S1 采用纯生成式技术路线，无需离线建模和训练。用户只需上传一张初始图片，模型即可理解角色身份、外观和视觉风格，并实时生成口型、表情、动作和身体姿态。无论是真人、动漫角色还是萌宠形象，均可快速转化为可实时互动的生成式角色。同时支持自定义音色，实现视觉形象与声音身份的统一。角色创建方式从“上传素材后等待训练”转变为“上传图片后直接互动”，大幅降低门槛。

为满足实时交互所需的流畅性，Vidu S1 在模型加速、推理引擎和集群部署策略上进行协同优化。模型侧基于 TurboDiffusion 推理加速框架，通过少步生成、低比特注意力 SageAttention、稀疏注意力 SLA 和 SpargeAttention 等优化技术，大幅降低单帧生成的计算成本，在消费级显卡上即可实现 540P 分辨率、25FPS（最高 42FPS）实时生成。系统侧基于 TurboServe 推理部署引擎，实现高效推理请求调度，持续记录用户输入、角色状态和历史画面，并根据交互状态动态调度计算资源。通过模型推理与流式服务的协同优化，Vidu S1 实现了从“把视频生成得更快”到“让视频持续在线、稳定输出、实时响应”的关键跨越。

Vidu S1 已开启内测，用户可通过以下方式体验：

线上体验地址：https://www.vidu.cn/vidu-stream
API体验地址：https://platform.vidu.cn/live/landing
APP体验：在手机应用商店搜索「Vidu AI Pro」下载最新版本，进入APP内点击「Vidu S1」即可体验。

关键要点

实时语音交互：用户可在视频通话中持续输入语音，模型实时理解语义、意图与情绪，同步生成口型、表情、手势、身体姿态等，实现全人身驱动的数字人互动。
无限时长连续生成：采用自回归扩散模型，基于历史画面和对话上下文持续预测并生成后续内容，长时间运行下画面稳定不漂移，角色身份和动作保持连贯。
一键创建交互角色：仅需一张初始图片（真人、动漫、萌宠等），无需建模和训练即可生成可实时交互的数字角色，支持自定义音色。
高分辨率流畅帧率：支持 540P（960×540）分辨率、25FPS 帧率（最高 42FPS），在消费级显卡上即可实现实时生成。
推理加速技术栈：集成 TurboDiffusion、SageAttention、SLA、SpargeAttention 等加速方法，以及 TurboServe 推理部署引擎，实现低延迟、高吞吐的流式服务。
应用场景广泛：适用于 AI 情感陪伴、AI 虚拟偶像、互动直播、游戏 NPC、品牌数字人、智能客服、在线教育、XR 等，将数字角色从一次性内容资产升级为长期在线、持续互动的智能入口。

意义与影响

Vidu S1 的发布标志着视频生成模型从“离线生成、固定内容”向“实时交互、持续演化”的重大转型。它将语音指令从单纯的驱动口型的信号，提升为控制数字人视觉行为的实时指令，结合无限时长生成和角色即时创建能力，使 AI 视频生成真正具备了“对话式交互”的潜力。这不仅是技术指标的提升（分辨率、帧率、时长），更重新定义了人机交互的范式：用户不再被动观看预先制作好的视频，而是与一个生成式角色进行双向交流。

对于行业而言，Vidu S1 展示了实时视频生成进入视频通话、互动直播、XR 等场景的技术可行性，推动竞争焦点从画质和速度转向实时性与可控性。其轻量化的角色创建方式（单张图片即可）大幅降低了数字人应用的门槛，有望加速数字人在娱乐、教育、客服等领域的普及。同时，TurboDiffusion 等推理加速技术的实际落地也证明，实时高分辨率视频生成在消费级硬件上可以成为现实，为后续更大规模应用奠定了基础。总体来看，Vidu S1 推动了 AI 视频生成从“内容生产工具”向“交互智能体”的进化方向迈进。

查看原文 →leiphone.com

生数科技发布Vidu S1实时交互模型

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐