AI 资讯量子位·3 小时前

Noiz AI联合港科大清华开源音频生成大模型：单卡0.24秒

原标题：4步出声，单卡0.24秒！Noiz AI联合港科大清华，开源音频生成大模型

速览

Noiz AI联合香港科技大学与清华大学，正式开源了一款高性能音频生成大模型。该模型支持仅需4步即可生成音频，在单卡环境下推理延迟低至0.24秒，极大提升了生成效率。此外，模型还具备精准的时间戳理解能力，为音频内容的精细化控制提供了有力支持。

AI 深度解读

背景

在AI音频生成领域，现有的主流模型（如 MMAudio、Stable Audio Open 等）虽然能够生成高质量音频，但在实际应用中面临着两大核心痛点：一是“听不懂”指令，难以精确处理声音的类别、数量、时间戳及先后顺序；二是“出得慢”，生成过程通常依赖扩散模型（Diffusion）或 Flow Matching，需要几十到上百步迭代，生成10秒音频往往需要等待数秒甚至更久。

这种低效和不可控性，成为了AI音频从“玩具”走向专业工作流和实时交互的最大绊脚石。为了解决这一行业难题，Noiz AI 联合香港科技大学、清华大学等机构，正式推出了支持 Anything-to-Audio（任意模态到音频）的极速音频生成大模型 AudioX-Turbo。该模型旨在同时攻克“极速推理”与“精准可控”两大难题，并通过全开源的方式推动技术普及。

核心内容

AudioX-Turbo 的核心突破主要体现在推理加速和数据质量提升两个维度，其技术架构与训练策略如下：

1. 极速推理：4步生成，单卡0.24秒

传统音频模型通常需要50-200步的扩散生成过程，而 AudioX-Turbo 通过以下技术手段将步数压缩至4步：

原生多模态骨干架构：模型采用原生适合多模态融合的 Multimodal Diffusion Transformer (MMDiT) 作为骨架，并配合 MAF 模块从零训练了 2.7B 参数。这一设计确保了极高的音画同频能力与跨模态控制力。
Turbo 蒸馏加速：基于 Flow Matching 框架，团队引入了分布匹配蒸馏（DMD）和对抗蒸馏技术，将模型蒸馏至仅4步采样。同时，应用 CFG（Classifier-Free Guidance）蒸馏去除了传统方法中引入的额外 NFE（No Function Evaluation）开销。
性能对比：这就好比将一幅需要涂100遍才能完成的画，提炼成只涂4遍的模板。AudioX-Turbo 仅需4个采样步数即可逼近教师模型100步的音质。得益于扩散判别器的对抗训练，学生模型在部分性能指标上甚至反超了100步的教师模型。
推理速度：在单张 RTX 4090 显卡上，生成10秒音频仅需 0.24秒，实时率（RTF）仅为 0.02。相比教师模型，计算量骤降约25倍。

2. 精准可控：920万强指令数据集

此前音频模型无法精确控制的根源在于训练数据中的文本标签过于模糊（如仅包含简单的环境音概括）。为此，团队构建了超大规模的多模态音频数据集 IF-caps-Pro，规模约 920万 样本，并采用“大模型级联标注”方案：

数据构建：首先构建海量高质量的“视频-音频”对。
结构化标注：利用 Gemini 2.5 Pro 模型生成带有时间戳、乐器、事件数量的结构化模板。
大规模扩写：使用 Qwen2-Audio 对数据进行大规模扩写，将原本“模糊的摘要”转变为“带有精确时间轴的剧本”。

这种细粒度的文本标签不仅提升了文本生成音频的效果，还意外提升了“只看无声视频配音”时的音视频对齐度，使模型真正“听懂”了时间戳和指令细节。

3. 全能输入：Anything-to-Audio

AudioX-Turbo 是一个统一的生成框架，支持文本、视频、图像等多种模态作为输入条件，实现“一个模型搞定”多模态音频生成。

关键要点

极致速度：通过分布匹配蒸馏和对抗蒸馏，将扩散生成过程从50-200步压缩至 4步，前向次数降低约25倍。
硬件友好：在单张 RTX 4090 上，生成10秒音频仅需 0.24秒（RTF 0.02），具备实时交互潜力。
数据创新：构建了 920万 量级的 IF-caps-Pro 数据集，通过 Gemini 2.5 Pro 和 Qwen2-Audio 实现带时间戳的强指令标注。
架构优势：基于 2.7B 参数的 MMDiT 架构，结合 MAF 模块，确保跨模态控制力。
性能霸榜：在 AudioCaps、MusicCaps 等测试集中，4步模型音质打败或战平50-200步基线；在专门构建的 T2A-bench 基准测试中，对声音类别、数量、时间戳和顺序的指令跟随能力呈现碾压态势（部分指标提升超一倍）。
全面开源：推理代码、训练代码及模型权重全部开源，项目页面及代码库已公开。

意义与影响

AudioX-Turbo 的发布证明了音频大模型可以打破“慢吞吞”和“不受控”的刻板印象。其4步极速推理和精确的时间戳控制能力，为多个垂直领域带来了新的可能性：

互动剧配音：实现角色对话的实时生成与同步。
游戏引擎实时拟音：根据游戏场景动态生成音效，提升沉浸感。
AI直播伴奏：支持实时互动的背景音乐生成。

Noiz AI 表示，将继续推进音效制作、有声内容制作及实时互动语音的实时重建技术。随着该项目的全开源，社区有望基于此框架进一步探索低成本复刻高质量音频生成的路径，推动AI音频从实验室走向更广泛的专业工作流。

项目资源：

论文标题：AudioX-Turbo: A Unified Framework for Efficient Anything-to-Audio Generation
核心团队：Noiz AI、香港科技大学、清华大学
项目主页：https://zeyuet.github.io/AudioX-Turbo/
项目代码：https://github.com/NoizAI/AudioX-Turbo

查看原文 →qbitai.com