模型:

microsoft/unispeech-sat-base

英文

UniSpeech-SAT-Base

Microsoft's UniSpeech

这是在16kHz采样的语音音频上预训练的基础模型,使用了言语和说话人对比损失。在使用该模型时,请确保您的语音输入也是以16kHz采样。

注意:该模型没有分词器,因为它仅基于音频进行了预训练。为了使用该模型进行语音识别,需要创建一个分词器,并在标记的文本数据上进行微调。有关如何微调模型的更详细解释,请参阅 this blog

该模型进行了以下预训练:

Paper: UNISPEECH-SAT: UNIVERSAL SPEECH REPRESENTATION LEARNING WITH SPEAKER AWARE PRE-TRAINING

作者:Sanyuan Chen,Yu Wu,Chengyi Wang,Zhengyang Chen,Zhuo Chen,Shujie Liu,Jian Wu,Yao Qian,Furu Wei,Jinyu Li,Xiangzhan Yu

摘要 自我监督学习(SSL)是语音处理的一个长期目标,因为它利用大规模的无标签数据,避免了大量的人工标注工作。近年来,在语音识别中应用自我监督学习取得了巨大成功,但对于建模说话人特征的SSL应用的研究仍然有限。本文旨在改进现有的SSL框架,用于说话人表示学习。我们介绍了两种方法来增强无监督说话人信息提取。首先,我们将多任务学习应用于当前的SSL框架,将话语对比损失与SSL目标函数结合起来。其次,为了更好地区分说话人,我们提出了一种用于数据增强的话语混合策略,其中在训练过程中无监督创建额外的重叠话语,并将其合并。我们将这些方法整合到HuBERT框架中。在SUPERB基准测试上的实验结果表明,所提出的系统在通用表示学习方面取得了最先进的性能,特别是针对说话人识别的任务。进行了消融研究,验证了每种提出方法的实效性。最后,我们将训练数据集扩大到了94,000小时的公共音频数据,并在所有SUPERB任务中进一步提高了性能。

原始模型可在 https://github.com/microsoft/UniSpeech/tree/main/UniSpeech-SAT 找到。

用法

这是一个英文预训练语音模型,在进行推理之前必须在下游任务(如语音识别或音频分类)上进行微调。该模型在英文上进行了预训练,因此只能在英文上表现良好。该模型在说话人验证、说话人识别和说话人分离等任务上表现良好。

注意:该模型是基于音素而不是字符进行预训练的。这意味着在进行微调之前,应确保将输入文本转换为音素序列。

语音识别

要对该模型进行语音识别的微调,请参阅 the official speech recognition example

语音分类

要对该模型进行语音分类的微调,请参阅 the official audio classification example

说话人验证

待定

说话人分离

待定

贡献

该模型由 cywang patrickvonplaten 贡献。

许可

官方许可证可在 here 找到