← 返回信息流
AI 资讯The Verge AI·1 小时前

大西洋杂志公开AI音乐训练数据集,含千万级曲目

原标题:The Atlantic created a searchable database of the music used to train AI

速览

《大西洋》杂志记者Alex Reisner公开了四个用于训练AI模型的音乐数据集,并使其完全可搜索。其中两个数据集规模庞大,分别包含1200万和900万首曲目,另外两个也各有超10万首歌曲。谷歌和Stability等公司已在研究论文中确认使用了这些数据集。

AI 深度解读

The Atlantic 建立可搜索数据库:揭示训练 AI 的音乐数据真相

背景

随着生成式人工智能(AI)技术的爆发式增长,训练数据的质量、规模及其获取方式的合法性成为了科技界与法律界关注的焦点。尽管许多 AI 模型声称其训练过程遵循了版权合规原则,但现实情况往往更为复杂。近期,The Atlantic 记者 Alex Reisner 深入调查了用于训练 AI 模型的音频数据集,发现数百万首受版权保护或限制使用的音乐作品被无偿公开在网络上,并被广泛用于 AI 训练。为了透明化这一过程,The Atlantic 创建了一个专门的搜索引擎,让公众能够查询具体哪些作品被纳入了 AI 的训练语料库。

核心内容

Alex Reisner 最近发现了四个用于训练 AI 模型的音乐数据集,并将它们整理成了完全公开可搜索的数据库。这些数据集的规模差异巨大:其中两个数据集极其庞大,分别包含 1200 万首和 900 万首曲目;另外两个数据集虽然规模较小,但每个仍包含超过 10 万首歌曲,构成了相当可观的训练数据量。

根据 Reisner 的调查,这些数据集已被下载了数千次。虽然无法确切知道所有使用者的身份,但 Google 和 Stability AI 等知名公司已在研究论文中确认使用了这些数据。值得注意的是,部分数据源(如 Free Music Archive 数据集)虽然允许个人免费流媒体播放,但在商业应用中仍需获得授权许可。

尽管这些数据集在互联网上看似可以自由获取,但将其直接作为 AI 训练数据并非简单的“下载 ZIP 文件并喂给模型”那样容易。Reisner 指出,其中三个数据集以指向 YouTube 或 Spotify 上歌曲的链接列表形式分发。AI 开发者使用自动化工具下载实际的音频文件,这些工具允许开发者绕过登录验证、广告以及旨在为创作者赚取收入或订阅者的机制。此类行为违反了相关平台的服务条款。

在这些数据集中出现的艺术家名字涵盖了从流行巨星 Lady Gaga 和 Fred Again..,到 Radiohead、Aphex Twin、Wu-Tang Clan、Bruce Springsteen 以及实验作曲家 Hainbach 等。公众可以通过 The Atlantic 的 AI Watchdog(AI 监督)网站,自行搜索用于训练全球 AI 模型的歌曲、书籍及其他媒体内容。

关键要点

  • 数据规模惊人:Reisner 发现的四个数据集中,最大的两个分别包含 1200 万和 900 万首曲目,其余两个也各有超 10 万首歌曲,总计数百万首曲目被用于 AI 训练。
  • 大厂已确认使用:Google 和 Stability AI 已在学术研究中证实使用了这些数据集,尽管具体使用者名单难以完全追踪。
  • 版权与合规冲突:许多数据源(如 Free Music Archive)仅限个人非商业用途,但被用于训练 AI 时往往涉及商业应用,存在版权风险。
  • 技术手段规避限制:开发者使用自动化工具从 YouTube 和 Spotify 等平台下载音频,这些工具绕过了登录墙、广告和创作者变现机制,直接违反了平台的服务条款(ToS)。
  • 公众监督工具上线:The Atlantic 建立了 AI Watchdog 数据库,允许公众查询具体哪些受版权保护的作品(包括 Lady Gaga、Radiohead 等知名艺术家)被用于训练 AI 模型。

意义与影响

这一发现揭示了当前 AI 行业在数据获取上的“灰色地带”。尽管 AI 公司声称致力于合规,但大规模使用通过技术手段绕过平台限制获取的数据,不仅侵犯了创作者的潜在收益,也挑战了现有版权法的边界。

对于音乐创作者而言,这意味着他们的作品可能在未经同意、未获授权的情况下被用于训练商业 AI 模型,进而可能生成与原作风格相似的内容,直接影响其市场价值。对于 AI 开发者来说,这提出了严峻的法律和伦理挑战:如何确保训练数据的合法性,以及如何平衡技术创新与知识产权保护。

The Atlantic 建立的这个可搜索数据库不仅是一个透明的工具,更是一个警示。它迫使公众、开发者和政策制定者正视 AI 训练数据背后的复杂性,并可能推动未来关于 AI 数据版权、平台责任以及创作者权益保护的相关立法讨论。

查看原文 →theverge.com