研究人员开发了一种新的深度学习模型,该模型有望通过利用一种以前未被充分利用的工具——人类感知,显著提高现实场景中的音频质量。
研究人员发现,他们可以利用人们对声音质量的主观评价,并结合语音增强模型,来提高按客观指标衡量的语音质量。
与其他标准方法相比,新模型在最小化嘈杂音频的存在方面表现更出色。而嘈杂音频是不需要的声音,可能会干扰人们听到他们想要听的内容。最重要的是,该模型生成的预测质量分数与人类的判断高度相关。
传统的限制背景噪声的措施使用人工智能算法从所需信号中提取噪声。但是,这些客观方法与听众对什么使语音易于理解的评估并不总是相符,俄亥俄州立大学计算机科学和工程学院的副教授、该研究的合著者Donald Williamson说。
“这项研究与其他研究的不同之处在于,我们试图利用感知来训练模型以消除不需要的声音,”Williamson说。“如果信号的某些质量可以被人们感知到,那么我们的模型就可以利用这些额外信息来学习,并更好地消除噪声。”
这项研究发表在《IEEE/ACM音频、语音和语言处理汇刊》上,专注于提高单声道语音增强,即来自单个音频通道(如一个麦克风)的语音。
这项研究使用了先前研究中涉及人们谈话录音的两个数据集来训练新模型。在某些情况下,存在可能会掩盖对话的背景噪音,如电视或音乐。听众在1到100的范围内对每条录音的语音质量进行评分。
该团队的模型之所以表现出色,是因为它采用了一种联合学习方法,将专门的语音增强语言模块与预测模型相结合,该预测模型可以预测人类听众可能给嘈杂信号的平均意见得分。
结果表明,与感知质量、可懂度和人类评分等客观指标相比,他们的新方法与其他其他模型相比获得了更好的语音质量。
但使用人类对声音质量的感知也有其问题,Williamson说。
“嘈杂音频之所以难以评估,是因为它非常主观。这取决于你的听力能力和听力经验,”他说。像使用助听器或人工耳蜗等因素也会影响普通人从他们的声音环境中的感知能力,他说。
由于提高嘈杂语音的质量对于改善助听器、语音识别程序、扬声器验证应用程序和免提通信系统至关重要,因此这些感知差异必须足够小,以防止嘈杂音频给用户带来不便。