← 返回信息流
技术博客arXiv cs.CL·3 小时前

EmoInstruct-TTS:双路径指令引导的情感语音合成框架

原标题:EmoInstruct-TTS: Dual-Path Instruction-Guided Emotional Speech Synthesis

速览

EmoInstruct-TTS是一种双路径指令引导的情感语音合成框架,旨在解决现有方法缺乏细粒度情感强度建模的问题。该研究引入了Emotion2embed,覆盖48种情感状态,并设计了指令条件情感流模型(ICE-Flow)以从自由文本指令中推断声学情感表示。实验表明,该方法在保持语义规划的同时,显著提升了语音合成的情感可控性和自然度。

AI 深度解读

AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org