谷歌详解对话人工智能Euphonia，更好地识别带有口音的和不清晰的言语

2019年08月14日由 bie管我叫啥发表 971497 0

谷歌人工智能研究人员分享了关于项目Euphonia的详细信息，这是一种针对有语言障碍的人的语音到文本转录服务。他们还表示，他们的方法可以改善母语非英语的人的自动语音识别。

患有肌萎缩侧索硬化症（ALS）的人通常言语不清，但现有的AI系统通常用没有障碍或口音的语音数据训练。这种新方法之所以成功，主要是因为引入了有口音的和ALS患者的数据。

ALS与口音

团队发现仅5分钟的训练数据就改进了71％，个性化模型对ALS和口音来说，相对错误率分别降低62%和35%。

ALS语音数据集由来自67名ALS患者的36小时音频组成，与ALS治疗发展研究所合作。非英语母语者数据集称为名L2 Arctic，有20个话语录音，每个录音持续一个小时。

Euphonia项目还采用了Parrotron的技术，这是一种引入语音障碍的AI工具，以及微调技术。通过训练个性化模型，它解决了亚群异质性问题。

使用标准的语音识别模型作为基线，然后以几种实验方式进行调整，在新音频上进行训练。仅这一点就大大降低了单词错误率，并且对原始模型的改变相对较小，这意味着在调整到新语音时不需要大量计算。

两种错误

研究人员发现，当模型仍然被给定的音素混淆时（那个单独的语音听起来像“e”或“f”），它有两种错误。首先，它不能识别出预期的音素，因此无法识别这个词。其次，模型必须猜测说话者想要表达的音素，在两个或两个以上单词发音大致相似的情况下，可能会选择错误的音素。

第二个错误是可以智能处理的错误。也许你会说，“I’m going back inside the house”但是系统没有识别出“b”和“h”，而你也不可能说“I’m going tack inside the mouse”，人工智能系统或许能够利用它对人类语言的了解，以及你自己的声音或你说话的语境，来聪明地填补空白。

谷歌正在向ALS人员征求数据，以提高其模型的准确性，并正在为Euphonia项目制定下一步措施，例如使用音素错误来降低单词错误率。

论文：

arxiv.org/abs/1907.13511

标签：

行业谷歌

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇我只想说，留给学渣的时间不多了

下一篇 NVIDIA创下新纪录：53分钟训练出BERT，2毫秒完成AI推理，最大语言模型包含83亿个参数

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术