NaturalSpeech 3：革新文本到语音合成的里程碑

2024年03月11日由 neo 发表 1255 0

近年来，文本到语音（TTS）合成技术面临着重重挑战，尤其是在追求高质量语音输出方面。由于语音涉及内容、韵律、音色和声学细节等多重复杂属性，实现零样本TTS（Zero-shot TTS）并维持声音质量、相似性和韵律的和谐统一，一直是业界研究的热点与难点。

微软亚洲研究院携手国内外多所知名高校，成功研发出NaturalSpeech 3这一先进的TTS系统。该系统采用独特的分解扩散模型，通过零样本方式生成高质量语音，突破了传统TTS技术的局限。NaturalSpeech 3的核心在于将语音波形分解为内容、韵律、音色和声学细节的独立子空间，并通过分解扩散模型在每个子空间生成相应的属性。这种分解方法简化了语音的复杂性，提高了学习效率和属性控制的准确性。

Screenshot(79)

TTS研究的最新进展主要体现在四个关键领域：零样本合成、语音表示、生成方法和属性分离。零样本TTS技术的目标是利用先进的数据表示和建模技术，为未见过的说话者生成高质量的语音。在语音表示方面，研究人员已经从传统的波形和梅尔频谱图方法，逐步过渡到更为数据驱动的方法，如离散令牌和连续向量。在生成方法上，自回归（AR）和非自回归（NAR）模型各有千秋，NAR模型在鲁棒性和速度上表现出色，而AR模型则在多样性和表现力上更胜一筹。至于属性分离技术，它旨在通过神经语音编解码器等工具，将内容、韵律和音色等语音属性进行有效分离，以提升合成语音的整体质量。

NaturalSpeech 3的突出优势在于其高质量、相似性和控制性。它利用先进的神经语音编解码器（FACodec）和分解扩散模型，对语音的各个属性进行精细化处理。这一创新方法不仅确保了合成语音的质量和可控性，还在前几个版本的基础上实现了更多样化的场景应用。通过对LibriSpeech和RAVDESS等大型数据集的广泛评估，NaturalSpeech 3在生成质量、说话者相似性和韵律相似性等方面均取得了显著进步。此外，该系统的可扩展性也得到了充分验证，利用更大的数据集和模型大小，其性能得到了进一步提升。

Screenshot(80)

然而，值得注意的是，NaturalSpeech 3目前主要依赖于LibriVox的英语数据，这在一定程度上限制了其声音多样性和多语言能力的发挥。为了克服这一局限，研究人员正计划扩大数据收集范围，以涵盖更多语言和声音类型。

综上所述，NaturalSpeech 3以其独特的分解扩散模型和先进的神经语音编解码技术，为TTS合成领域带来了革命性的突破。随着技术的不断进步和数据的不断扩充，我们有理由相信，未来的TTS系统将能够为我们提供更加自然、逼真的语音体验。

文章来源：https://www.marktechpost.com/2024/03/09/revolutionizing-text-to-speech-synthesis-introducing-naturalspeech-3-with-factorized-diffusion-models/

标签：

人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Adobe展示用于音乐创作的GenAI工具

下一篇 Pika引领AI视频创新，推出全新音效功能

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术