Maluuba: 口语处理的新进展

2019年05月08日由人工智能爱好者发表 384850 0

强大的Azure计算基础架构和大量培训数据支持的深度学习算法构成了我们AI演进历程中最重要的推动力。在过去的三年中，微软在AI领域创造了几个历史性的里程碑，这是在语言和语言社区中广泛使用的以下公共基准任务中首次实现人类平等：

2017：语音识别对话语音转录任务（交换机）

2018年：中英文新闻翻译任务机器翻译（WMT17）

2019年：斯坦福会话问题和回答任务（CoQA）的对话质量保证

这些突破对从翻译应用到智能扬声器的众多口语应用产生了深远的影响。虽然现在市面上有智能扬声器，但大多数扬声器一次只能处理一个人的语音命令，并且在发出这样的命令之前需要唤醒一个字。我们已将一些重要的技术突破纳入Azure语音服务，并采用了新的会话转录功能，现已预览。通过我们引用的设备SDK提供纯音频或视听麦克风阵列设备，从而增强了此功能（DDK）。这是人工智能进化历程中的重要一步，因为环境远场多人语音转录几十年来一直是科幻小说的主要内容。

新的Conversation Transcription功能扩展了Microsoft现有的Azure语音服务，可实现实时、多人、远场语音转录和演讲者归属。与语音DDK配对，会话转录可以有效地识别房间中的一小群人的会话语音，并生成转录处理常见但具有挑战性的场景，例如“相声”。

对于有兴趣试用具有视频功能的端到端转录解决方案的客户，我们正在与选定的客户和系统集成（SI）合作伙伴（如埃森哲，Avanade和Roobo）合作，分别在美国和中国定制和集成Conversation Transcription解决方案。高级功能类似于我们在去年的Build中首次展示的功能。

会话转录功能利用多声道数据，包括来自代号为Princeton Tower的Speech DDK的音频和视频信号。边缘设备基于我们的参考设计的360度音频麦克风阵列或具有视听融合的360度鱼眼摄像机，以支持改进的转录。边缘设备向Azure云发送信号以进行神经信号处理和语音识别我们的SI合作伙伴可提供先进的视听麦克风阵列DDK。

我们不断创新，超越传统的麦克风阵列和先进的视听麦克风阵列DDK。今天，我们还公布了我们最新的研究进展（丹麦项目），该项目可以通过一系列现有设备（如配备普通麦克风的移动电话或笔记本电脑）动态创建虚拟麦克风阵列。虚拟麦克风阵列将现有设备（如配备普通麦克风的手机或笔记本电脑，如乐高积木）动态组合成一个更大的阵列。丹麦项目可以使用Azure语音服务随时随地帮助我们的客户更轻松地转录对话，无论是否有专用麦克风阵列DDK。未来的应用场景很广泛。

最后，如果诸如首字母缩写词之类的域词汇不可用，则准确的语音转录非常困难。为解决此问题，我们正在扩展Azure自定义语音识别功能，并使组织能够使用其Office 365数据轻松创建自定义语音模型。对于选择使用此服务的Office 365企业客户，Azure可以自动生成利用Office 365数据（如“联系人”，“电子邮件”和“文档”）的自定义模型，并以完全一刀切，安全且合规的方式进行。这可以为组织特定的白话语提供更准确的语音转录，例如技术术语和人名。对于有兴趣试用此新功能的客户，我们为您的组织提供私人预览，以便从专用和优化的语音服务中受益。

微软的Azure语音服务一直支持微软自己的M365解决方案以及使用相同统一语音平台的许多第三方客户。从Allstate到Xiaomi的客户都开始利用Azure语音服务来加速他们的数字化转型。随着我们继续使Azure成为最有效的语音和语言应用平台，您将如何使用我们的惊人技术？机会是无限的，因为我们可以使用NLP技术进一步增强Azure会话转录，例如机器翻译，QA以及最终的自动会议记录，以帮助客户实现更多目标。

标签：

行业 Maluuba

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇教你三招！让你的简历通过AI的筛选

下一篇通用自动驾驶汽车部门Cruise又筹11.5亿美元，总估值已达190亿美元

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术