字节开源Bernini框架:为DiT配备大模型军师实现AI视频先理解后编辑
速览
字节跳动开源了统一框架Bernini,旨在提升AI视频编辑能力。该框架为扩散Transformer(DiT)配备了大模型作为“军师”,使系统能够先理解视频内容再进行编辑操作。这一机制显著提升了AI视频生成的逻辑性和准确性,推动了视频编辑技术的智能化发展。
AI 深度解读
背景
AI视频生成领域长期存在一个核心痛点:模型往往难以精准理解用户的复杂指令,导致生成结果与创作者意图偏差较大。例如,用户希望将晴天改为雪天,模型可能仅简单叠加雪花特效,而无法调整光照、环境氛围及物理逻辑;希望将动画植入商场LED屏时,常出现边界模糊、透视错误或帧间闪烁等问题。这种“听不懂人话”且缺乏可控性的现状,使得AI视频编辑难以进入专业创作流程。
为了解决这一难题,字节商业化技术团队近日开源了统一框架 Bernini。该框架旨在打破传统视频生成模型仅依赖提示词(Prompt)出片的局限,通过引入“先理解、再生成”的架构,赋予视频生成模型更强的语义规划能力,从而实现高精度的视频编辑与可控生成。
核心内容
Bernini 的核心设计理念是将视频生成与编辑任务拆解为两个清晰的阶段:语义规划与视觉渲染。这一架构被形象地比喻为AI视频片场中的“导演”与“后期团队”。
-
语义规划(MLLM-based Planner): 作为“导演”,多模态大模型规划器负责深入理解用户的文本指令,并结合源视频、参考图片或参考视频等多模态素材,判断目标画面应呈现的状态。它不直接生成像素,而是在 ViT embedding space 中预测目标的语义表示,生成一张“语义草图”。这张草图明确了视频应包含的内容、结构变化、需保留的元素及需编辑的区域。
-
视觉渲染(DiT-based Renderer): 作为“后期团队”,基于 Diffusion Transformer (DiT) 的渲染器负责将语义规划转化为高质量、连续且稳定的视频画面。在视频编辑任务中,渲染器会结合源视频的 VAE features,以最大程度保留原视频的细节和非编辑区域,避免修改导致整段画面失真。
-
技术突破:SA-3D RoPE: 针对多参考输入(如多个参考图、源视频、目标视频混合输入)可能导致的时空坐标混淆问题,Bernini 引入了 Segment-Aware 3D Rotary Positional Embedding (SA-3D RoPE)。该机制通过为不同视觉片段添加独立的 segment 标记,使模型能够清晰区分参考图、源视频与目标输出,同时保留精确的时间和空间位置关系。
-
功能覆盖: Bernini 支持多种视频生成与编辑任务,重点体现“可控性”:
- 语义编辑:支持改变天气、季节、材质和风格,并能调整镜头视角、焦点及主体动作,保持帧间一致性与物理逻辑。
- 参考生成与编辑:支持使用图片和视频作为参考,实现主体植入(如自然融入狗狗、雪人)、材质迁移(如布料、金属质感)、风格迁移(卡通、写实、赛博朋克等)以及屏幕内容植入(如海报、视频嵌入LED屏)。
- 新视频生成:支持基于单图参考生成产品展示视频,支持多元素组合参考生成新角色/场景,以及基于同一物体多角度参考生成连续镜头,确保多角度下的一致性。
关键要点
- 架构创新:采用“MLLM Planner + DiT Renderer”的两阶段架构,实现语义理解与视觉渲染的解耦,显著提升生成可控性。
- 位置编码优化:引入 SA-3D RoPE,有效解决多模态参考输入下的时空混淆问题,确保模型能准确识别不同素材的身份与位置。
- 高精度编辑能力:
- 能在改变天气、风格时,同步调整光照、环境氛围及物理细节,而非简单叠加滤镜。
- 支持镜头语言控制,包括视角调整、焦点切换及主体动作改变,且能保持背景与镜头关系的稳定。
- 强大的参考控制:
- 支持图像/视频参考编辑,实现主体、材质、风格的精准迁移与植入。
- 支持基于单图、多元素组合及多角度参考生成新视频,保持物体细节与结构的高度一致性。
- 开源进度:目前率先开源的是 Bernini-R(对应三阶段训练流程中的第二阶段模型,即渲染器部分)。包含 MLLM Planner 的完整版本正在整理中,预计近期开放。
- 性能表现:在字节商业化技术团队自建的 Arena 评测中,Bernini 在多项指标上与国内外主流闭源模型处于同一梯队,展现出第一梯队的竞争力。
意义与影响
Bernini 的开源标志着 AI 视频创作从“玄学抽卡”向“精准控制”迈出了关键一步。其核心价值在于降低了 AIGC 创作中的不可控感,使创作者能够更自然地利用个人素材和想法进行表达。
- 提升创作效率与质量:通过“先理解再动手”的机制,减少了反复试错和后期修补的成本,使 AI 视频生成更接近传统影视后期软件的工作流。
- 拓展应用场景:其在主体植入、材质迁移、屏幕内容合成等方面的精准控制能力,为广告创意、电商展示、影视预演、虚拟拍摄及游戏关卡生成等领域提供了强有力的工具支持。
- 推动技术标准化:Bernini 对多模态参考输入的处理及一致性保持能力的突破,为后续更复杂的“世界模型”及具身智能模拟奠定了技术基础,有助于推动 AI 视频生成向更长线、更具空间逻辑的方向发展。
随着完整版本的即将开源,Bernini 有望进一步降低 AI 视频创作门槛,激发更多创新应用,推动 AIGC 内容生产流程的标准化与专业化。
