Wav2Vec2-XLS-R-300M

Facebook's Wav2Vec2 XLS-R 计数300百万参数。

XLS-R是Facebook AI的大规模多语言预训练语音模型（"XLM-R for Speech"）。它在436k小时的无标注语音上进行了预训练，包括VoxPopuli、MLS、CommonVoice、BABEL和VoxLingua107。它使用wav2vec 2.0目标，在128种语言中进行。在使用模型时，请确保语音输入采样率为16kHz。

注意：这个模型应该在下游任务上进行微调，比如自动语音识别、翻译或分类。查看 this blog 以获取有关ASR的更多信息。

XLS-R Paper

作者：Arun Babu、Changhan Wang、Andros Tjandra、Kushal Lakhotia、Qiantong Xu、Naman Goyal、Kritika Singh、Patrick von Platen、Yatharth Saraf、Juan Pino、Alexei Baevski、Alexis Conneau、Michael Auli

摘要：本文介绍了基于wav2vec 2.0的跨语言语音表示学习的大规模模型XLS-R。我们在128种语言中，对436K小时的公开可用语音音频进行了多达20亿个参数的模型训练，比已知的最大前期工作的公共数据多一个数量级。我们的评估涵盖了各种任务、领域、数据范围和语言，包括高资源和低资源语言。在CoVoST-2语音翻译基准上，我们相对于21个翻译方向向英语平均改进了7.4 BLEU的先验状态。对于语音识别，XLS-R相对于BABEL、MLS、CommonVoice以及VoxPopuli的最佳先前工作，平均降低了20%-33%的错误率。XLS-R还在VoxLingua107语言识别上建立了新的先进技术。此外，我们还展示了当将英语语音翻译成其他语言时，足够的模型大小下，跨语言预训练可以胜过仅英语预训练，这种情况有利于单语预训练。我们希望XLS-R可以帮助改进世界上更多语言的语音处理任务。

原始模型可在 https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 中找到。

用法

有关如何对模型进行微调的更多信息，请参见 this google colab 。

您可以找到其他带有不同数量参数的预训练XLS-R模型：

作者:

Meta AI

数据集大小:

1.18 GB