Facebook开发深度学习系统，如同大师一样玩音乐

2018年05月23日由浅浅发表 357114 0

Facebook的研究人员开发了一种深度学习系统，可以复制它听到的音乐，将其回放，就好像它是莫扎特，贝多芬或巴赫一样。这是研究人员首次在乐器，风格和流派之间制作高保真音乐转换。

“人类一直创造音乐并复制它，无论是通过唱歌，吹口哨，拍手，还是在经过一些训练之后即兴演奏或进行标准乐器演奏。这种能力并非人类专有，还有许多其他声乐模仿物种能够通过听觉重复音乐，”研究人员在报告中写道。

研究者使用八个NVIDIA Tesla V100 GPU和cuDNN -accelerated PyTorch深度学习框架，六类古典音乐领域训练系统，其中包括：莫扎特的46部交响曲，海顿的27个弦乐四重奏，JS巴赫的清唱剧为乐队，巴赫的管风琴作品，贝多芬的32首钢琴奏鸣曲，以及巴赫的键盘作品。训练耗时8天，包括数千个来自各个领域的样本。

该方法基于一个多域WaveNet自动编码器，NVIDIA在上个月写道。研究人员指出，与领域无关的编码器可以让他们甚至从训练期间不会涉及到的音乐领域进行转换。

研究人员表示：“我们稍微修改了WaveNet方程，以使它们的架构适合NVIDIA提供的推理时所用的CUDA内核。”训练中使用的相同的GPU也用于推断。

[video width="1280" height="720" mp4="https://www.atyun.com/uploadfile/2018/05/A-Universal-Music-Translation-Network.mp4"][/video]

“据我们所知，结果表现出的能力是前所未有的。虽然将一种乐器转换为另一种乐器时，我们的系统比专业音乐家的表现要差或略差。很多时候，它很难分辨出哪个是原始音频文件，哪个是模拟完全不同乐器的转换输出，”研究人员表示。

该团队表示，他们的工作可能会开展其他高级任务，如音乐的转录和音乐的自动组合。

研究人员补充道，“我们的网络能够成功处理未经训练过的乐器或口哨等其他来源。在输出端，生成相对高质量的音频，并且可以添加新的仪器，而无需重新训练整个网络。”

标签：

机器学习深度学习 Facebook

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇深度学习研究：微软认知转移神经元（CSN）技术，创建适应性元学习模型

下一篇通用数据保护条例GDPR今日起正式生效，不会影响机器学习

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术