AI 资讯Hacker News·2 小时前

Magenta RealTime 2：开源本地化实时音乐生成模型

原标题：Magenta RealTime 2: Open and Local Live Music Models

速览

Magenta RealTime 2 是一款开源的实时音乐生成模型，支持本地部署运行。该模型旨在降低音乐创作的技术门槛，让开发者能够直接在本地环境中利用 AI 进行实时音乐交互与生成。这一发布进一步推动了生成式 AI 在音乐领域的开放生态建设。

AI 深度解读

Magenta RealTime 2：开放与本地的实时音乐模型深度解读

背景

在人工智能与音乐创作的交叉领域，Google 旗下的 Magenta 团队始终秉持一个核心理念：AI 应当是音乐家的工具，而非替代品。这一愿景已持续近十年。早在 2017 年，Magenta 团队就发布了首款神经合成器 NSynth，将机器学习引入了可演奏的硬件设备。随后，团队通过 DDSP、Piano Genie 以及初代 Magenta RealTime 等项目，持续探索 AI 乐器的可能性。初代 Magenta RealTime 作为其首个实时音乐模型，已经具备了生成和融合多种音乐风格的能力。

然而，随着生成式 AI 的发展，现有的大型音乐模型大多依赖离线处理，即通过提示词（Prompt）生成完整的音轨，缺乏交互性。音乐家们渴望一种能够像传统乐器一样，通过 MIDI 或音频实时控制、低延迟响应的工具。Magenta RealTime 2（简称 MRT2）正是在这一背景下诞生的，旨在解决实时交互中的延迟问题，并将高性能的 AI 音乐生成能力带入本地硬件环境。

核心内容

Magenta RealTime 2 是一个最先进的开放权重模型及高效的实时推理引擎，旨在让用户在笔记本电脑上构建和演奏 AI 乐器。与那些离线将提示词转化为音轨的大型生成式音乐模型不同，MRT2 是一个实时的、可交互的模型。它支持通过 MIDI、音频以及文本进行控制，并在设备端执行低延迟推理，从而对输入做出即时响应。用户可以将其作为独立应用程序运行，嵌入到数字音频工作站（DAW）中，或集成到其他音乐软件中。

模型架构与控制机制 MRT 和 MRT2 均是基于 SpectroStream 编解码器（codec）的音频 token 序列运行的编解码语言模型（Codec Language Models）。MRT2 通过执行帧级自回归（frame-level autoregression）并结合帧对齐的条件输入（frame-aligned conditioning），实现了比初代更低的延迟。为了支持富有表现力的音乐控制，MRT2 能够建模持续跟随 MIDI 输入的音频，同时支持音频或文本形式的风格提示。这些提示通过 MusicCoCa 进行嵌入。为了实现最小的交互滞后，这两种信号在每个生成步骤中都被注入为帧对齐的条件输入，使模型能够在一个帧（40 毫秒，加上其他经验性延迟源）内对信号变化做出反应。

该方法的另一个关键在于使用了因果滑动窗口注意力机制（causal sliding window attention mechanism），这使得模型能够在限制内存需求的同时实现连续的流式生成。此外，模型还引入了可学习的注意力嵌入，以改善在长上下文生成中对任意时长和上下文驱逐伪影（如回响和反馈）的泛化能力。

高性能本地推理引擎 初代 Magenta RealTime 需要高性能 GPU 或 TPU，而 MRT2 则致力于在音乐家实际使用的硬件上实现实时生成。为此，团队构建了一个基于 MLX 的 C++ 推理引擎，使 MRT2 能够在 Apple Silicon 上原生运行。Apple 的 MLX 框架充当了 Python 与 C++ 之间的桥梁。具体而言，团队使用 MLX 编译使用 SequenceLayers 库实现的 MRT2 模型，生成一个包含权重和计算图的模型容器文件（.mlxfn）。C++ 推理引擎加载该文件，并利用 MLX 运行时在 Apple Silicon GPU 上高效执行模型。该引擎还处理模型状态、音频缓冲/重采样、MIDI 输入等其他必要基础设施，并可嵌入到支持 C++ 的众多音乐应用框架中。

发布资源与工具 除了开放权重的模型（24 亿参数），Magenta 团队还发布了以下资源：

开源 Python 库：通过 pip install magenta-rt 安装，提供基于 JAX/MLX 和 SequenceLayers 的推理支持。
C++ 推理引擎：利用 MLX 在 MacBook GPU 上实现高效的流式音频生成。
示例应用套件：基于推理引擎构建的一系列示例应用程序，展示了 MRT2 的创意潜力，并为开发者构建新乐器和软件集成提供参考。

这些应用允许用户尝试声音克隆、风格融合以及使用低延迟音乐模型进行现场伴奏。

关键要点

实时交互性：MRT2 不是离线生成工具，而是支持通过 MIDI、音频和文本进行实时控制的交互式模型，具备低延迟的设备端推理能力。
硬件兼容性：MRT2 可在标准硬件上运行，特别是针对 Apple Silicon（M 系列芯片）进行了优化，支持离线推理和实时流式生成。
性能大幅提升：相比初代 Magenta RealTime，MRT2 的延迟降低了约 15 倍，使其成为真正的“乐器”而非仅仅是生成工具。
技术架构创新：采用基于 SpectroStream 的编解码语言模型，结合帧级自回归和因果滑动窗口注意力机制，实现了低延迟的连续流式生成。
开放生态：发布了 24 亿参数的开放权重模型、基于 MLX 的 C++ 推理引擎、Python 库以及多个示例应用，鼓励社区开发自定义乐器和插件。
未来路线图：团队计划推出微调功能（Finetuning），允许用户直接使用自有数据定制模型，并将在波士顿音乐技术黑客松活动中展示基于 MRT2 的挑战赛成果。

意义与影响

Magenta RealTime 2 的发布标志着 AI 音乐工具从“生成内容”向“实时演奏”迈出了关键一步。通过将延迟降低至 40 毫秒级别，MRT2 解决了长期以来阻碍 AI 成为真正“乐器”的核心痛点——即时反馈与控制。这使得音乐家可以在创作过程中实时调整旋律、和声与风格，而无需等待漫长的离线生成过程。

此外，MRT2 的开源策略和本地化部署能力降低了技术门槛。通过提供 C++ 推理引擎和 Python 库，开发者可以轻松将其集成到现有的 DAW 或音乐软件中，极大地扩展了 AI 在音乐制作工作流中的应用场景。这不仅丰富了音乐家的创作工具箱，也为 AI 音乐研究社区提供了宝贵的实验平台。

随着微调功能的即将上线，用户将能够进一步个性化模型，使其适应特定的音乐风格或个人创作习惯。Magenta 团队在波士顿音乐技术黑客松活动中的参与，也预示着这一技术将在更广泛的开发者社区中激发创新，推动实时 AI 音乐交互技术的边界不断拓展。

查看原文 →magenta.withgoogle.com