Wav2Vec2-Large

Facebook's Wav2Vec2

基于16kHz采样的语音音频进行预训练的基础模型。在使用该模型时，请确保输入的语音也是以16kHz进行采样的。请注意，该模型应在下游任务（如自动语音识别）上进行微调。详细信息请参阅 this blog 。

Paper

作者：Alexei Baevski，Henry Zhou，Abdelrahman Mohamed，Michael Auli

摘要：我们首次展示，仅通过从语音音频中学习强大的表示，然后在转录的语音上进行微调，可以在概念上更简单的情况下超越最佳的半监督方法。wav2vec 2.0在潜在空间中遮蔽语音输入，并解决在联合学习的潜在表示的量化上定义的对比任务。在使用Librispeech的所有标记数据的实验中，干净/其他测试集的字错率（WER）为1.8/3.3。当标记数据量降低到一小时时，wav2vec 2.0在使用100倍少的标记数据的同时，优于之前在100小时子集上的最佳结果。仅使用十分钟的标记数据，并在53000小时的无标记数据上进行预训练，仍能实现4.8/8.2的WER。这证明了在有限的标记数据量下进行语音识别的可行性。原始模型可以在 https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 中找到。

用法

有关如何对模型进行微调的更多信息，请参阅 this notebook 。

作者:

Meta AI

数据集大小:

1.18 GB