AI 资讯ReadHub 科技日报·1 小时前

豆包音频生成模型1.0发布，开启音频导演时代

原标题：豆包音频生成模型 1. 0 发布，开启「音频导演」时代

速览

豆包音频生成模型1.0正式发布，具备多模态参考生成与长时音色一致性两大核心技术。该模型可通过输入包含角色台词、情绪语气等内容的Prompt直接产出完整音频，并在长音频创作中稳定保持角色声音特性。此外，它拥有0样本多模态音频创造能力，无需额外训练即可生成高质量目标音频，实现音色与风格深度解耦，有效降低专业音频制作门槛。

AI 深度解读

背景

在人工智能生成内容（AIGC）领域，音频生成正从简单的语音合成向复杂的多模态创作演进。字节跳动旗下的豆包大模型家族近期动作频频，继视频生成模型 Seedance 系列及大语言模型迭代之后，正式推出了豆包音频生成模型 1.0。这一版本的发布标志着豆包在音频领域的技术布局进一步完善，旨在通过降低专业音频制作门槛，开启「音频导演」时代，让用户能够以更低的成本、更高的效率完成高质量的音频内容创作。

核心内容

豆包音频生成模型 1.0 的发布，核心在于其突破了传统音频生成在长时一致性和多模态控制上的瓶颈。该模型具备两大核心技术支柱：多模态参考生成与长时音色一致性。

在功能实现上，用户只需输入包含角色台词、情绪语气、背景音乐及环境氛围的 Prompt（提示词），模型即可直接产出完整的音频成片。这种「所见即所得」的创作方式，极大地简化了音频后期制作的流程。

此外，该模型拥有 0 样本多模态音频创造能力。这意味着用户无需对模型进行额外的训练，仅通过文本描述或参考音频输入，即可生成高质量的目标音频。这一特性实现了音色与风格的深度解耦，支持「一声多角」的演绎效果，即同一个声音基础可以适配不同的角色和风格，从而显著降低了专业音频制作的门槛。

关键要点

多模态参考生成：支持通过输入包含台词、情绪、背景音乐及环境氛围的综合 Prompt，直接生成完整音频，无需繁琐的分步合成。
长时音色一致性：在长音频创作场景中，模型能够稳定保持角色声音的特性，解决传统生成模型在长文本或长音频中声音突变或不一致的问题。
0 样本多模态音频创造：无需额外训练，仅需文本或参考音频输入即可生成高质量目标音频，具备极强的泛化能力和灵活性。
音色与风格深度解耦：实现了声音特质与艺术风格的分离，支持「一声多角」演绎，提升了声音素材的复用率和创作自由度。
降低专业门槛：通过自动化和智能化的生成能力，大幅降低了音频制作的专业壁垒，使非专业人士也能轻松完成高质量音频创作。

意义与影响

豆包音频生成模型 1.0 的发布，是 AIGC 技术在音频领域应用深化的重要里程碑。首先，它通过「音频导演」的概念，将音频创作的主导权更多地交还给用户，通过自然语言或简单的参考素材即可掌控音频的每一个细节，包括情绪、氛围和背景音乐，这极大地丰富了内容创作的形态。

其次，长时音色一致性和 0 样本学习能力的突破，解决了音频生成中长期存在的痛点。这不仅提升了生成内容的专业度和可用性，也为 podcast、有声书、游戏配音等长音频场景提供了高效的技术解决方案。

最后，该模型的低门槛特性有望推动音频内容的爆发式增长。随着制作成本的降低和创作效率的提升，更多创作者将能够参与到音频内容的生产中，进而丰富互联网音频生态，推动音频行业向智能化、个性化方向加速发展。

查看原文 →readhub.cn

豆包音频生成模型1.0发布，开启音频导演时代

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐