AI 资讯量子位·2 天前

字节开源Bernini框架：为DiT配备大模型军师实现AI视频先理解后编辑

原标题：字节开源统一框架Bernini：给DiT配个“大模型军师”，AI视频编辑先理解再动手

速览

字节跳动开源了统一框架Bernini，旨在提升AI视频编辑能力。该框架为扩散Transformer（DiT）配备了大模型作为“军师”，使系统能够先理解视频内容再进行编辑操作。这一机制显著提升了AI视频生成的逻辑性和准确性，推动了视频编辑技术的智能化发展。

AI 深度解读

背景

AI视频生成领域长期存在一个核心痛点：模型往往难以精准理解用户的复杂指令，导致生成结果与创作者意图偏差较大。例如，用户希望将晴天改为雪天，模型可能仅简单叠加雪花特效，而无法调整光照、环境氛围及物理逻辑；希望将动画植入商场LED屏时，常出现边界模糊、透视错误或帧间闪烁等问题。这种“听不懂人话”且缺乏可控性的现状，使得AI视频编辑难以进入专业创作流程。

为了解决这一难题，字节商业化技术团队近日开源了统一框架 Bernini。该框架旨在打破传统视频生成模型仅依赖提示词（Prompt）出片的局限，通过引入“先理解、再生成”的架构，赋予视频生成模型更强的语义规划能力，从而实现高精度的视频编辑与可控生成。

核心内容

Bernini 的核心设计理念是将视频生成与编辑任务拆解为两个清晰的阶段：语义规划与视觉渲染。这一架构被形象地比喻为AI视频片场中的“导演”与“后期团队”。

语义规划（MLLM-based Planner）：作为“导演”，多模态大模型规划器负责深入理解用户的文本指令，并结合源视频、参考图片或参考视频等多模态素材，判断目标画面应呈现的状态。它不直接生成像素，而是在 ViT embedding space 中预测目标的语义表示，生成一张“语义草图”。这张草图明确了视频应包含的内容、结构变化、需保留的元素及需编辑的区域。
视觉渲染（DiT-based Renderer）：作为“后期团队”，基于 Diffusion Transformer (DiT) 的渲染器负责将语义规划转化为高质量、连续且稳定的视频画面。在视频编辑任务中，渲染器会结合源视频的 VAE features，以最大程度保留原视频的细节和非编辑区域，避免修改导致整段画面失真。
技术突破：SA-3D RoPE：针对多参考输入（如多个参考图、源视频、目标视频混合输入）可能导致的时空坐标混淆问题，Bernini 引入了 Segment-Aware 3D Rotary Positional Embedding (SA-3D RoPE)。该机制通过为不同视觉片段添加独立的 segment 标记，使模型能够清晰区分参考图、源视频与目标输出，同时保留精确的时间和空间位置关系。
功能覆盖： Bernini 支持多种视频生成与编辑任务，重点体现“可控性”：
- 语义编辑：支持改变天气、季节、材质和风格，并能调整镜头视角、焦点及主体动作，保持帧间一致性与物理逻辑。
- 参考生成与编辑：支持使用图片和视频作为参考，实现主体植入（如自然融入狗狗、雪人）、材质迁移（如布料、金属质感）、风格迁移（卡通、写实、赛博朋克等）以及屏幕内容植入（如海报、视频嵌入LED屏）。
- 新视频生成：支持基于单图参考生成产品展示视频，支持多元素组合参考生成新角色/场景，以及基于同一物体多角度参考生成连续镜头，确保多角度下的一致性。

关键要点

架构创新：采用“MLLM Planner + DiT Renderer”的两阶段架构，实现语义理解与视觉渲染的解耦，显著提升生成可控性。
位置编码优化：引入 SA-3D RoPE，有效解决多模态参考输入下的时空混淆问题，确保模型能准确识别不同素材的身份与位置。
高精度编辑能力：
- 能在改变天气、风格时，同步调整光照、环境氛围及物理细节，而非简单叠加滤镜。
- 支持镜头语言控制，包括视角调整、焦点切换及主体动作改变，且能保持背景与镜头关系的稳定。
强大的参考控制：
- 支持图像/视频参考编辑，实现主体、材质、风格的精准迁移与植入。
- 支持基于单图、多元素组合及多角度参考生成新视频，保持物体细节与结构的高度一致性。
开源进度：目前率先开源的是 Bernini-R（对应三阶段训练流程中的第二阶段模型，即渲染器部分）。包含 MLLM Planner 的完整版本正在整理中，预计近期开放。
性能表现：在字节商业化技术团队自建的 Arena 评测中，Bernini 在多项指标上与国内外主流闭源模型处于同一梯队，展现出第一梯队的竞争力。

意义与影响

Bernini 的开源标志着 AI 视频创作从“玄学抽卡”向“精准控制”迈出了关键一步。其核心价值在于降低了 AIGC 创作中的不可控感，使创作者能够更自然地利用个人素材和想法进行表达。

提升创作效率与质量：通过“先理解再动手”的机制，减少了反复试错和后期修补的成本，使 AI 视频生成更接近传统影视后期软件的工作流。
拓展应用场景：其在主体植入、材质迁移、屏幕内容合成等方面的精准控制能力，为广告创意、电商展示、影视预演、虚拟拍摄及游戏关卡生成等领域提供了强有力的工具支持。
推动技术标准化：Bernini 对多模态参考输入的处理及一致性保持能力的突破，为后续更复杂的“世界模型”及具身智能模拟奠定了技术基础，有助于推动 AI 视频生成向更长线、更具空间逻辑的方向发展。

随着完整版本的即将开源，Bernini 有望进一步降低 AI 视频创作门槛，激发更多创新应用，推动 AIGC 内容生产流程的标准化与专业化。

查看原文 →qbitai.com

字节开源Bernini框架：为DiT配备大模型军师实现AI视频先理解后编辑

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐