Facebook AI可将音频中的人声在歌手间进行转换

2019年04月17日由张江发表 828071 0

利用AI将一个人的歌唱风格套用到另一个人身上，现在这种想法已经实现，在论文“Unsupervised Singing Voice Conversion”中，Facebook AI Research和特拉维夫大学的科学家描述了一个系统，可以直接将一个歌手的音频转换为另一个歌手的声音。更令人印象深刻的是，它是无监督的，这意味着它能够实现以前从未遇到的未分类、未注释数据的转换。

该团队声称，模型通过学习5到30分钟的歌声，就能在歌手之间进行转换，部分归功于创新的训练方案和数据增强技术。

“我们的方法可能使自己摆脱自己声音的某些限制，建议的网络不是以文本或笔记为条件，并且不要求各种歌手之间的并行训练数据，也不需要使用文本的音频副本或音符，虽然现有的音高校正方法可以纠正局部音高偏移，但我们的工作为其他语音特征提供了灵活性。”

他们的方法建立在WaveNet上，这是一种谷歌开发的自动编码器（一种人工智能用于学习无人监督的数据集的表示），可以根据录音波形生成模型。它采用了反向翻译，将一个数据样本转换为目标样本（在这种情况下，一个歌手的声音转换为另一个的声音），然后将其翻译回来，如果它与原始样本不匹配，则进行调整。此外，该团队使用的合成样本使用比其他发声者更接近源歌手，还有一个“混淆网络”，确保系统对歌手不可知。

分两个阶段进行训练人工智能：首先，将一个称为softmax重建损失的数学函数分别应用于每个歌手的样本，然后，通过训练歌手的混合矢量嵌入得到了新歌手的样本，是先于反向翻译的。

为了扩充训练数据集，作者通过倒向播放信号并不知不觉地改变相位来转换音频剪辑。这使数据集大小增加四倍。第一次增强创造了一首毫无意义的歌曲，但仍然可以识别为同一位歌手；第二次增强为训练创造了一种感知上难以区分但又新颖的信号。

在实验中，该团队采购了两个公开的数据集，斯坦福大学的移动表演数字档案馆（DAMP）语料库和新加坡国立大学的成语和口语语料库（NUS-48E），其中包含各种歌手演唱的歌曲。从一开始，他们随机挑选了五首歌曲和10首歌曲（他们用来训练AI系统的九首歌曲），从第二首歌曲中，他们为每位歌手选择了12首歌曲和四首歌曲，所有这些歌曲都用于训练。

第一组中，他们随机选择了5名歌手和10首歌，其中9首用来训练AI系统。第二组中，他们选择了12名歌手，每名歌手有4首歌，并用了所有歌曲训练AI。

接下来让人类评论员以1-5的等级判断生成的声音与目标歌声的相似性，并使用涉及分类系统的自动测试更客观地评估样本的质量。评论者给出转换后的音频平均得分约为4，而自动测试发现，生成的样本的识别精度几乎与重构的样本一样高。未来，他们希望可以在背景音乐的存在的情况下进行转换。

标签：

语音识别 Facebook

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 IBM分布式深度学习技术将语音识别训练时间从一周缩短到11小时

下一篇 Facebook正在开发一款基于AI的数字语音助手，为硬件产品提供支持

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术