模型:

facebook/hubert-large-ll60k

英文

Hubert-Large

Facebook's Hubert

针对16kHz采样的语音音频预训练的大型模型。在使用该模型时,请确保语音输入也是以16kHz采样。

注意:该模型没有分词器,因为它仅在音频上进行了预训练。为了使用该模型进行语音识别,需要创建一个分词器,并在标记的文本数据上对模型进行微调。详细了解如何微调模型,请参阅 this blog

该模型是在 Libri-Light 上进行预训练的。

Paper

作者:Wei-Ning Hsu,Benjamin Bolte,Yao-Hung Hubert Tsai,Kushal Lakhotia,Ruslan Salakhutdinov,Abdelrahman Mohamed

摘要:自监督语音表示学习面临三个独特的问题:(1)每个输入语音中有多个声音单元,(2)在预训练阶段没有输入声音单元的词典,(3)声音单元具有可变长度,没有明确的分割。为了解决这三个问题,我们提出了Hidden-Unit BERT(HuBERT)方法用于自监督语音表示学习,它利用脱机聚类步骤为BERT样的预测损失提供对齐的目标标签。我们方法的一个关键要素是仅在屏蔽区域上应用预测损失,这迫使模型在连续输入上学习一个组合的声学和语言模型。HuBERT主要依赖无监督聚类步骤的一致性,而不是分配的群集标签的内在质量。从100个群集的简单k-means教师开始,并使用两次聚类,HuBERT模型与Librispeech(960小时)和Libri-light(60,000小时)基准上的wav2vec 2.0性能相匹配或改进,使用10min、1h、10h、100h和960h微调子集。使用1B参数模型,HuBERT在更具挑战性的dev-other和test-other评估子集上相对WER降低了19%和13%。

原始模型可以在 https://github.com/pytorch/fairseq/tree/master/examples/hubert 下找到。

用法

有关如何微调模型的更多信息,请参见 this blog 。请注意,类 Wav2Vec2ForCTC 必须替换为 HubertForCTC 。