UniSpeech-Large

Microsoft's UniSpeech

预训练于16kHz采样的语音音频和音素标签的大型模型。使用该模型时，请确保语音输入也以16kHz进行采样，并将文本转换为音素序列。

注意：该模型没有分词器，因为它仅在音频上进行了预训练。为了使用该模型进行语音识别，应创建一个分词器，并在标注的文本数据上对模型进行微调。详细的微调方法请查看 this blog 。

Paper: UniSpeech: Unified Speech Representation Learning with Labeled and Unlabeled Data

作者：Chengyi Wang，Yu Wu，Yao Qian，Kenichi Kumatani，Shujie Liu，Furu Wei，Michael Zeng，Xuedong Huang

摘要：在本文中，我们提出了一种统一的预训练方法UniSpeech，用于使用无标签和标记数据学习语音表示。通过多任务学习方式进行监督的音素CTC学习和音素感知对比自监督学习。由此产生的表示可以捕捉与音素结构更相关的信息，并提高跨语言和领域的泛化能力。我们在公共的CommonVoice语料库上评估了UniSpeech在跨语言表示学习方面的有效性。结果表明，相对于自监督预训练和监督迁移学习，UniSpeech在语音识别方面的相对错误率降低最大可达13.4%和17.8%（平均所有测试语言）。UniSpeech的可迁移性也在领域转移语音识别任务上得到了验证，相对于之前的方法，字错误率降低了6%。

原始模型可在 https://github.com/microsoft/UniSpeech/tree/main/UniSpeech 处找到。

用法

这是一个英语的预训练语音模型，在使用推理前必须对下游任务（如语音识别或音频分类）进行微调。该模型在英语上进行了预训练，因此只能在英语上表现良好。

注意：该模型是在音素而不是字符上进行预训练的。这意味着在进行微调之前，应确保输入文本转换为音素序列。

语音识别

有关将该模型微调为语音识别的信息，请参阅 the official speech recognition example 。

语音分类

有关将该模型微调为语音分类的信息，请参阅 the official audio classification example 。

贡献

该模型由 cywang 和 patrickvonplaten 共同贡献。

许可

正式许可证可在 here 处找到

作者:

Microsoft

数据集大小:

1.18 GB