Magenta RealTime 2:开源本地化实时音乐生成模型
速览
Magenta RealTime 2 是一款开源的实时音乐生成模型,支持本地部署运行。该模型旨在降低音乐创作的技术门槛,让开发者能够直接在本地环境中利用 AI 进行实时音乐交互与生成。这一发布进一步推动了生成式 AI 在音乐领域的开放生态建设。
AI 深度解读
Magenta RealTime 2:开放与本地的实时音乐模型深度解读
背景
在人工智能与音乐创作的交叉领域,Google 旗下的 Magenta 团队始终秉持一个核心理念:AI 应当是音乐家的工具,而非替代品。这一愿景已持续近十年。早在 2017 年,Magenta 团队就发布了首款神经合成器 NSynth,将机器学习引入了可演奏的硬件设备。随后,团队通过 DDSP、Piano Genie 以及初代 Magenta RealTime 等项目,持续探索 AI 乐器的可能性。初代 Magenta RealTime 作为其首个实时音乐模型,已经具备了生成和融合多种音乐风格的能力。
然而,随着生成式 AI 的发展,现有的大型音乐模型大多依赖离线处理,即通过提示词(Prompt)生成完整的音轨,缺乏交互性。音乐家们渴望一种能够像传统乐器一样,通过 MIDI 或音频实时控制、低延迟响应的工具。Magenta RealTime 2(简称 MRT2)正是在这一背景下诞生的,旨在解决实时交互中的延迟问题,并将高性能的 AI 音乐生成能力带入本地硬件环境。
核心内容
Magenta RealTime 2 是一个最先进的开放权重模型及高效的实时推理引擎,旨在让用户在笔记本电脑上构建和演奏 AI 乐器。与那些离线将提示词转化为音轨的大型生成式音乐模型不同,MRT2 是一个实时的、可交互的模型。它支持通过 MIDI、音频以及文本进行控制,并在设备端执行低延迟推理,从而对输入做出即时响应。用户可以将其作为独立应用程序运行,嵌入到数字音频工作站(DAW)中,或集成到其他音乐软件中。
模型架构与控制机制 MRT 和 MRT2 均是基于 SpectroStream 编解码器(codec)的音频 token 序列运行的编解码语言模型(Codec Language Models)。MRT2 通过执行帧级自回归(frame-level autoregression)并结合帧对齐的条件输入(frame-aligned conditioning),实现了比初代更低的延迟。为了支持富有表现力的音乐控制,MRT2 能够建模持续跟随 MIDI 输入的音频,同时支持音频或文本形式的风格提示。这些提示通过 MusicCoCa 进行嵌入。为了实现最小的交互滞后,这两种信号在每个生成步骤中都被注入为帧对齐的条件输入,使模型能够在一个帧(40 毫秒,加上其他经验性延迟源)内对信号变化做出反应。
该方法的另一个关键在于使用了因果滑动窗口注意力机制(causal sliding window attention mechanism),这使得模型能够在限制内存需求的同时实现连续的流式生成。此外,模型还引入了可学习的注意力嵌入,以改善在长上下文生成中对任意时长和上下文驱逐伪影(如回响和反馈)的泛化能力。
高性能本地推理引擎 初代 Magenta RealTime 需要高性能 GPU 或 TPU,而 MRT2 则致力于在音乐家实际使用的硬件上实现实时生成。为此,团队构建了一个基于 MLX 的 C++ 推理引擎,使 MRT2 能够在 Apple Silicon 上原生运行。Apple 的 MLX 框架充当了 Python 与 C++ 之间的桥梁。具体而言,团队使用 MLX 编译使用 SequenceLayers 库实现的 MRT2 模型,生成一个包含权重和计算图的模型容器文件(.mlxfn)。C++ 推理引擎加载该文件,并利用 MLX 运行时在 Apple Silicon GPU 上高效执行模型。该引擎还处理模型状态、音频缓冲/重采样、MIDI 输入等其他必要基础设施,并可嵌入到支持 C++ 的众多音乐应用框架中。
发布资源与工具 除了开放权重的模型(24 亿参数),Magenta 团队还发布了以下资源:
- 开源 Python 库:通过
pip install magenta-rt安装,提供基于 JAX/MLX 和 SequenceLayers 的推理支持。 - C++ 推理引擎:利用 MLX 在 MacBook GPU 上实现高效的流式音频生成。
- 示例应用套件:基于推理引擎构建的一系列示例应用程序,展示了 MRT2 的创意潜力,并为开发者构建新乐器和软件集成提供参考。
这些应用允许用户尝试声音克隆、风格融合以及使用低延迟音乐模型进行现场伴奏。
关键要点
- 实时交互性:MRT2 不是离线生成工具,而是支持通过 MIDI、音频和文本进行实时控制的交互式模型,具备低延迟的设备端推理能力。
- 硬件兼容性:MRT2 可在标准硬件上运行,特别是针对 Apple Silicon(M 系列芯片)进行了优化,支持离线推理和实时流式生成。
- 性能大幅提升:相比初代 Magenta RealTime,MRT2 的延迟降低了约 15 倍,使其成为真正的“乐器”而非仅仅是生成工具。
- 技术架构创新:采用基于 SpectroStream 的编解码语言模型,结合帧级自回归和因果滑动窗口注意力机制,实现了低延迟的连续流式生成。
- 开放生态:发布了 24 亿参数的开放权重模型、基于 MLX 的 C++ 推理引擎、Python 库以及多个示例应用,鼓励社区开发自定义乐器和插件。
- 未来路线图:团队计划推出微调功能(Finetuning),允许用户直接使用自有数据定制模型,并将在波士顿音乐技术黑客松活动中展示基于 MRT2 的挑战赛成果。
意义与影响
Magenta RealTime 2 的发布标志着 AI 音乐工具从“生成内容”向“实时演奏”迈出了关键一步。通过将延迟降低至 40 毫秒级别,MRT2 解决了长期以来阻碍 AI 成为真正“乐器”的核心痛点——即时反馈与控制。这使得音乐家可以在创作过程中实时调整旋律、和声与风格,而无需等待漫长的离线生成过程。
此外,MRT2 的开源策略和本地化部署能力降低了技术门槛。通过提供 C++ 推理引擎和 Python 库,开发者可以轻松将其集成到现有的 DAW 或音乐软件中,极大地扩展了 AI 在音乐制作工作流中的应用场景。这不仅丰富了音乐家的创作工具箱,也为 AI 音乐研究社区提供了宝贵的实验平台。
随着微调功能的即将上线,用户将能够进一步个性化模型,使其适应特定的音乐风格或个人创作习惯。Magenta 团队在波士顿音乐技术黑客松活动中的参与,也预示着这一技术将在更广泛的开发者社区中激发创新,推动实时 AI 音乐交互技术的边界不断拓展。
