IBM分布式深度学习技术将语音识别训练时间从一周缩短到11小时

2019年04月11日由明知不问发表 215065 0

可靠，稳健、可通用的语音识别是机器学习中的一个持续性挑战。训练自然语言理解模型不仅需要包含数千小时语音和数百万（甚至数十亿）文本单词的语料库，还需要足够强大的硬件以在合理的时间范围内处理它们。

为了减轻计算负担，IBM在一篇新发表的论文“Distributed Deep Learning Strategies for Automatic Speech Recognition”中提出了一种分布式处理架构，该架构可以使训练加速15倍，并且在流行的开源基准测试中不会损失准确性。该论文的作者表示，该系统部署在包含多个显卡的系统上，可以将训练时间从几周减少到几天。

这项研究将于下个月在IEEE国际声学，语音和信号处理会议（ICASSP）会议上公布。

研究者解释，训练像Siri，谷歌智能助手和亚马逊的Alexa那样的自动语音识别（ASR）系统需要复杂的编码系统，以将语音转换为可被深度学习系统和解码系统理解的特征，从而转换为人类可读的文本。模型往往也更大，这使得大规模训练更加困难。

一般来说，团队的并行化解决方案需要增加批处理大小，或者可以一次处理的样本数量，而不是不加选择地处理，这会对准确性产生负面影响。该团队他们使用的方法将批量大小增加到2560，同时应用异步分散并行随机梯度下降（ADPSGD）的分布式深度学习技术。

正如研究人员解释的那样，大多数深度学习模型采用同步优化方法，这会受到慢速系统的影响，另外的模型使用基于参数-服务器（PS）的异步方法，这往往会导致模型不太准确。相比之下，IBM去年在论文中首次详述的ADPSGD是异步和分散的，保证了模型准确性的基线水平，并为某些类型的优化问题提供了加速方案。

在测试中，该论文的作者表示，ADPSGD将ASR作业运行时间从单个V100 GPU上的一周缩短到32-GPU系统上的11.5小时。

“在半天内完成训练工作是十分实用的，因为它使研究人员能够快速迭代开发新的算法，这也允许开发人员快速地调整现有模型以适应应用程序，特别是对于自定义用例，需要大量语音来实现鲁棒性和高精确度。”

标签：

语音识别 IBM

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇嗨谷歌，请用John Legend的声音说话

下一篇 Facebook AI可将音频中的人声在歌手间进行转换

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术