Deezer开发AI系统,基于音轨和歌词检测歌曲的情绪和强度

Deezer开发AI系统,基于音轨和歌词检测歌曲的情绪和强度人类的耳朵可以毫不费力地感受到歌曲的情绪,例如,Eric Clapton的“Tears in Heaven”中的忧郁,或者Led Zeppelin的“Whole Lotta Love”中的激情。然而,机器也可以做到。Deezer的研究人员开发了一种AI系统,可以将某些音轨与情绪联系起来。

他们发表的一篇新论文“Music Mood Detection Based on Audio Lyrics With Deep Neural Nets”中描述了他们的工作。

团队表示,“在过去的二十年里,自动音乐情绪检测一直是一个活跃的研究领域,它包括自动确定听音乐时感受到的情绪。在这项工作中,我们专注于基于音频信号和音轨歌词的多模态情绪检测任务。”

该团队引用心理学研究表明,在分析音乐情绪时,歌词“应该考虑进去”,他们设计了一个神经网络,分别提供音频信号和word2vec嵌入训练160万首歌词。为了教它衡量歌曲的情感共鸣,他们选择了百万歌数据集(MSD),这是一个与LastFM标签相关的音轨数据库,其中一些与情绪有关,以及14000个英语单词,其中嵌入的效价(从消极到积极),唤醒程度(从冷静到精力充沛),他们用这些来选择标签以进行训练。

由于MSD不包含音频信号和歌词,因此团队使用歌曲元数据将其映射到Deezer的目录,特别是歌曲标题,艺术家姓名和专辑标题。并且他们在相对于歌词长度的相应位置从歌词中提取单词。

大约60%的结果数据集(总共18644个注释轨道)用于训练模型,其中40%用于验证和测试。

与利用与情绪相关的词汇的经典系统相比,深度学习模型在唤醒检测方面更优秀。当涉及到效价检测时,结果好坏参半,研究人员指出,深度学习中基于歌词的方法往往表现不佳,但它仍然设法与基于特征工程的方法的性能相匹配。

研究人员写道:“这种性能提升似乎是我们的模型能够揭示并使用音频和歌词之间的中级相关性的结果,特别是在预测效价方面。详细研究和优化用于音乐情绪检测的ConvNets提供了暂时定位负责轨道效价和唤醒的区域的机会。”

他们建议随后的研究可以使用带有标签的数据库来指示轨道情绪的模糊程度,或利用在大量未标记数据上训练的无监督模型。他们认为,这两种方法都将显著提高未来模型的预测准确性。

本文为ATYUN(www.atyun.com)编译作品,ATYUN专注人工智能
请扫码或微信搜索ATYUN订阅号及时获取最新内容

发表评论