字节推出Seed-TTS文本到语音模型,可生成媲美人类的语音

2024年06月06日 由 daydream 发表 286 0

字节跳动宣布了一项名为Seed-TTS的革新技术,这是一系列大规模自回归文本转语音(TTS)模型,能够生成几乎与人类语音无法区分的自然声音。Seed-TTS的出色表现,不仅在于其高度逼真的语音质量,更在于其对语音上下文学习的深刻理解和说话人相似性与自然度的完美融合。


微信截图_20240606112112


据团队介绍,Seed-TTS作为语音生成的基础模型,在多个评估中均展现出了卓越的性能。无论是在客观评估还是主观评估中,该模型都能够生成与真实人类语音极其相似的语音,达到了前所未有的高度。此外,通过微调,Seed-TTS在说话人相似性和自然度方面取得了更高的主观评分,进一步证明了其卓越的性能。


值得注意的是,Seed-TTS不仅具备出色的语音生成能力,还对各种语音属性提供了卓越的控制能力,如情感等。这使得Seed-TTS能够为现实中的说话人生成高度表达力和多样化的语音,为语音合成领域带来了更广阔的应用前景。


为了进一步提升模型的性能,字节跳动团队还提出了一种自我蒸馏方法和一种强化学习方法。自我蒸馏方法用于语音分解,能够在不改变模型结构或损失函数的情况下实现高质量的音色解耦。而强化学习方法则用于增强模型的鲁棒性、说话人相似性和可控性,使Seed-TTS在应对复杂语音环境时更加稳定可靠。


此外,字节跳动还推出了Seed-TTS的非自回归(NAR)变体——Seed-TTSDiT。该变体采用了完全基于扩散的架构,能够直接预测输出语音的潜在表示,而无需依赖于预先估计的音素持续时间。这一创新的设计使得Seed-TTSDiT在语音编辑任务中展现出了独特的优势,并与基于语言模型的变体性能相当。


在评估方面,Seed-TTS已经在零样本语音上下文学习、说话人微调和情感控制等任务上进行了全面的测试。这些评估结果不仅证明了Seed-TTS的出色性能,也为未来的基准测试提供了宝贵的参考数据。


然而,尽管Seed-TTS具有诸多优点和潜力,但也面临着一些挑战和局限性。如何确保技术的安全、可靠和道德使用,是字节跳动团队在开发过程中必须认真考虑的问题。此外,随着技术的不断发展,如何在保证语音质量的同时降低计算成本和提高生成速度,也是未来研究的重要方向。

文章来源:https://www.atyun.com/59650.html
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消