研究人员通过对人类听觉处理进行建模，以改进机器人的语音识别

2019年02月18日由浅浅发表 283170 0

我们很少考虑到噪音，但是在拥挤的城市广场和繁忙的百货商店等地方隔离声音，是一件非常复杂的事情。在我们听觉通路的较低层次，我们从背景中分离出单独的来源，在空间中定位它们，并在我们弄清楚它们的上下文之前检测它们的运动模式。

受到这种神经生理学的启发，研究人员发表论文“Enhanced Robot Speech Recognition Using Biomimetic Binaural Sound Source Localization”，该设计旨在测试面部特征对声音识别组件的影响，如声源定位（SSL）和自动语音识别（ASR）。

正如研究人员指出的那样，躯干，头部和耳廓吸收并反射声波，根据声源的位置改变频率。它们前往耳蜗和内部的Corti器官，产生神经冲动以响应声音振动。这些冲动通过听觉神经系统传递到耳蜗核，这是一种将信息转发到两个结构的中继站：内侧上橄榄（MSO）和侧上橄榄（LSO）。（MSO被认为有助于定位左侧或右侧的角度以精确定位声音源，而LSO使用强度来定位声源。）最后，它们被整合到大脑的下丘（IC）中。

为了在算法上复制结构，研究人员设计了一个机器学习框架，可以处理嵌入在类人机器人头部、iCub和Soundman中的麦克风录制的声音。

该框架包括四个部分：一个SSL组件，将音频分解为多组频率，并使用频率波来产生模仿Corti神经冲动的峰值；对某些角度产生的声音敏感的MSO模型；对其他角度敏感的LSO模型；以及一个IC组合的层，它结合了MSO和LSO的信号。额外的神经网络可以最大限度地减少混响和自我噪声（机器人关节和电机产生的噪声）。

为了测试系统的性能，研究人员使用Soundman建立SSL和ASR基线以及iCub头（配备允许其旋转的马达），以确定头部和内部组件的共振效应。一组13个均匀分布的扬声器采用半圆柱配置，朝向磁头喷射噪声，探测并处理它。

该团队发现，来自SSL的数据可以显著改善，在某些情况下，在句子级别上提高了两倍，语音识别的准确性，通过指示如何定位机器人头部并选择适当的通道作为ASR系统的输入。当从头部移除耳廓时，性能甚至更好。

该论文的作者写道，“这种方法与相关方法形成对比，在这些方法中，来自两个通道的信号在用于ASR之前被平均，动态SSL实验的结果表明该架构能够处理不同类型的混响。这些结果是我们之前在静态SSL中工作的重要扩展，并支持系统对真实环境中声音动态的稳健性。此外，系统可以轻松地与最新的方法集成，以增强混响环境中的ASR [55][57]，而不会增加计算成本。”

论文：
arxiv.org/ftp/arxiv/papers/1902/1902.05446.pdf

标签：

语音识别机器人自然语言处理NLP

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇语音助手的风险隐患，以及如何加强其安全性

下一篇谷歌新AI技术可将语音识别错误降低29％

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术