← 返回信息流
AI 资讯雷峰网·3 小时前

网易有道开源Confucius4-TTS:14语种零口音语音克隆

原标题:网易有道首发14语种零口音语音克隆模型,无需参考文本即可复刻任意音色

速览

网易有道正式开源Confucius4-TTS大模型体系语音合成引擎,采用1.3B参数模型并开放完整权重。该模型实现3秒极速零样本语音克隆,支持14种语言跨语种无痕音色迁移,彻底解决中式口音痛点。其引入GPT式语义大模型架构,具备音频Prompt情感克隆能力,可广泛应用于数字人、教育及跨境传播等场景。

AI 深度解读

背景

在国家将人工智能作为培育新质生产力核心引擎、并上升为国家战略层面的宏观背景下,国务院《关于深入实施“人工智能+”行动的意见》明确提出要加快AI核心技术自主创新,降低产业落地门槛,构建开放共享的国产AI生态。

在此战略机遇期,网易有道正式推出“子曰4.0”大模型体系中的TTS(Text-to-Speech,语音合成)引擎——Confucius4-TTS。该引擎已面向全球用户开放,并凭借其在语音克隆领域的开创性突破,迅速引发行业高度关注。作为网易有道在语音合成技术上的重要迭代,Confucius4-TTS旨在为数字人、跨境传播、智能教育等产业提供国产化、低成本的语音克隆解决方案。

核心内容

Confucius4-TTS 是网易有道基于“子曰4.0”大模型体系研发的语音合成引擎,其核心突破在于实现了无需参考文本即可进行的14语种零口音跨语种语音克隆。

1. 开源策略与部署能力 Confucius4-TTS 采用 Apache 宽松友好的开源协议,面向全球创作者和开发者开放完整模型权重及配套工具链。模型参数量为 1.3B,开发者可下载约 54G 的资源包进行本地离线部署,商用无限制。同时,网易有道还开源了配套的智能体工具链,进一步降低了使用门槛。

2. 三大核心技术突破

  • 极速零样本克隆: 实现了真正的零样本语音克隆能力。用户仅需提供 3 秒的音频片段,即可复刻原声。克隆音色与原声相似度超过 85%,任务准确度高达 97%。相较于初代 EmotiVoice 仅支持训练集内音色的局限,Confucius4-TTS 实现了“无口语零样本复刻”的跨越式升级。
  • 14语种跨语种互通: 全面支持中文、英语、日语、韩语、德语、法语、西班牙语、印尼语、意大利语、泰语、葡萄牙语、俄语、马来语、越南语等 14 种语言的自然流利表达。其最大亮点在于解决了长期存在的跨语种口音痛点:用户上传中文音频,AI 即可用该音色流利说出日语、英语等外语,发音地道自然,彻底告别“中式口音”。
  • 音频 Prompt 情感克隆: 区别于初代 EmotiVoice 仅支持通过“happy/sad/angry”等离散文本标签进行粗放式情感控制,Confucius4-TTS 创新性地支持音频 Prompt 情感克隆迁移。系统可自动提取参考音频中的情感标签,精准复刻其语调与韵律,并支持跨语种无损迁移。例如,用中文生气地说一句话,合成出的外语也具备相同的生气语气。

3. 底层架构革新 在技术架构上,Confucius4-TTS 从传统的声码器方案升级为“大模型驱动”。

  • 初代 EmotiVoice: 采用传统 HiFi-GAN 声码器和 Speaker ID 查表方案,不支持克隆功能。
  • Confucius4-TTS: 引入 GPT 式语义大模型作为主干,搭配基于 SSL(Self-Supervised Learning,自监督学习)预训练特征和 ECAPA-TDNN 的可学习说话人编码器,并采用 Flow Matching(流匹配)生成框架。这一架构实现了高保真、高自然度的语音合成,且无需参考文本即可完成克隆。

关键要点

  • 产品发布: 网易有道发布“子曰4.0”体系下的 TTS 引擎 Confucius4-TTS,面向全球开源。
  • 核心能力: 支持 14 种语言,具备零样本语音克隆、跨语种无痕音色迁移、情感复刻三大能力。
  • 性能指标: 仅需 3 秒音频即可完成克隆,音色相似度 >85%,任务准确度 97%。
  • 技术突破:
    • 零样本: 无需大量训练数据,3秒即可复刻。
    • 去口音化: 解决跨语种合成中的“中式口音”问题,发音地道。
    • 情感迁移: 通过音频 Prompt 精准迁移语调韵律,支持跨语种情感保持。
  • 架构升级: 从 HiFi-GAN 声码器升级为 GPT 式语义大模型主干 + SSL预训练特征 + Flow Matching 生成框架。
  • 开源详情: 采用 Apache 协议,提供 1.3B 参数模型,完整权重约 54G,支持本地离线部署,商用无限制。
  • 社区反馈: 开发者实测认为其听感自然流畅,无生硬外语口音;博主评价其为“真开源”,提供完整权重而非仅 API,适合口播配音和数字人制作,性价比高。

意义与影响

Confucius4-TTS 的发布与开源,对语音合成领域及下游应用产业具有深远影响:

  1. 降低技术门槛,推动国产化生态: 通过全量开源完整模型权重和工具链,网易有道显著降低了语音克隆和情感合成的技术门槛。这符合构建开放共享国产 AI 生态的战略导向,有助于推动 AI 核心技术自主可控。
  2. 解决行业痛点,提升内容质量: 跨语种“中式口音”和粗放的情感控制一直是语音合成领域的长期痛点。Confucius4-TTS 提供的地道发音和精准情感迁移能力,极大地提升了多语种内容创作和数字人配音的自然度与专业度。
  3. 赋能多元应用场景: 其低门槛、低成本的特性,使得多语种内容创作、数字人配音、跨语言教学以及本地化运营等场景能够以更低的成本实现高质量语音合成,有望催生更多创新玩法。
  4. 激发社区创新活力: 宽松的开源协议和完整的本地部署能力,鼓励全球开发者、创作者深入探索模型潜力。社区博主的积极反馈表明,该模型在实用性和易用性上得到了市场验证,有望加速 AI 语音技术在千行百业的深度融合。
查看原文 →leiphone.com