Hubert-Extra-Large

Facebook's Hubert

该模型在16kHz采样的语音音频上进行了预训练。在使用该模型时，请确保您的语音输入也是以16kHz采样的。请注意，该模型应该在下游任务（如自动语音识别、说话人识别、意图分类、情感识别等）上进行微调。

该模型的预训练数据是 Libri-Light 。

Paper

作者：Wei-Ning Hsu，Benjamin Bolte，Yao-Hung Hubert Tsai，Kushal Lakhotia，Ruslan Salakhutdinov，Abdelrahman Mohamed

摘要语音表示学习的自监督方法面临着三个独特的问题：（1）每个输入语音中有多个声音单元，（2）在预训练阶段没有输入声音单元的词汇表，（3）声音单元的长度存在变化，没有明确的分割。为了解决这三个问题，我们提出了Hidden-Unit BERT（HuBERT）方法，用于自监督语音表示学习，它利用离线聚类步骤为BERT-like预测损失提供了对齐的目标标签。我们方法的一个关键部分是仅在掩码区域上应用预测损失，这迫使模型在连续输入上学习组合的声学和语言模型。HuBERT主要依靠无监督聚类步骤的一致性，而不是分配的簇标签的本质质量。使用一个由100个簇组成的简单的k-means聚类器开始，并使用两次聚类迭代，HuBERT模型在Librispeech（960h）和Libri-light（60,000h）基准测试中，根据10min、1h、10h、100h和960h微调子集，要么与wav2vec 2.0的最新性能相匹配，要么有所提升。使用一个10亿参数的模型，HuBERT在更具挑战性的dev-other和test-other评估子集上相对于误识别率（WER）可减少高达19%和13%。

原始模型可以在 https://github.com/pytorch/fairseq/tree/master/examples/hubert 下找到。

用法

更多有关如何对模型进行微调的信息，请参见 this blog 。请注意，类 Wav2Vec2ForCTC 必须替换为 HubertForCTC 。

作者:

Meta AI

数据集大小:

7.17 GB