谷歌AI在没有语言模型的情况下，实现了最高性能的语音识别

登录注册

资讯

学习

基础知识理论实践学习教程

企业招聘

下载

模型数据集

AI工具箱

企业服务

EVA 智能HR

ChatGPT 人工智能应用人工智能未来计算机视觉

热门新闻

机器人康奈尔大学

康奈尔大学推出新的社交机器人，更柔软，更人性化

行业人工智能

为什么数据污染对LLM来说是一个大问题

行业人工智能

所以，能动手就别吵吵了

常用工具

ChatGPT

OpenAI旗下AI对话工具

Midjourney

AI图像和插画生成工具，测试测试测试测试测试测测试

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

文心一言

百度推出的基于文心大模型的AI对话互动工具

讯飞星火认知大模型

科大讯飞推出的类ChatGPT的讯飞星火认知大模型

您尚未登录账户

请先登录您的atyun账户，方可使用该功能

仅限企业账户使用

该功能仅限企业账号使用，开通企业账号可享受更多服务，是否现在注册企业账号？

立即注册企业账号

暂不需要

您的企业账号申请正在审核中

审核通过后即可使用此功能，请耐心等待~

2019年04月23日由董灵灵发表 945436 0

谷歌AI研究人员正在将计算机视觉应用于声波视觉效果，从而在不使用语言模型的情况下实现最先进的语音识别性能。

研究人员表示，SpecAugment方法不需要额外的数据，可以在不适应底层语言模型的情况下使用。

谷歌AI研究人员Daniel S. Park和William Chan表示，“一个意想不到的结果是，即使没有语言模型的帮助，使用SpecAugment器训练的模型也比之前所有的方法表现得更好。虽然我们的网络仍然从添加语言模型中获益，但我们的结果表明了训练网络在没有语言模型帮助下可用于实际目的的可能性。”

SpecAugment部分通过将视觉分析数据增强应用于频谱图，语音的视觉表示来工作。SpecAugment应用于Listen，Attend和Spell网络进行语音识别任务，LibriSpeech960h达到2.6%的单词错误率（WER），它收集了时长约1000小时的英语口语，以及Switchboard300h收集了260小时电话中的英语对话，单词错误率6.8％。

自动语音识别（ASR）系统将语音翻译成文本，用于会话式AI，如家庭智能扬声器中的谷歌智能助手或使用Gboard的电子邮件，或安卓智能手机的短信听写工具。根据普华永道2018年的一项调查显示，降低单词错误率可能是提高会话AI采用率的关键因素。

语言模型和计算能力的进步推动了单词错误率的降低，例如，近年来，使用语音输入比手动输入更快。

标签：

语音识别谷歌

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Facebook正在开发一款基于AI的数字语音助手，为硬件产品提供支持

下一篇 AI倾听谈话，通过声音识别PTSD障碍，准确率达89%

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

Sam Altman离职事件时间线