UniSpeech-SAT-Base

Microsoft's UniSpeech

这是在16kHz采样的语音音频上预训练的基础模型，使用了言语和说话人对比损失。在使用该模型时，请确保您的语音输入也是以16kHz采样。

注意：该模型没有分词器，因为它仅基于音频进行了预训练。为了使用该模型进行语音识别，需要创建一个分词器，并在标记的文本数据上进行微调。有关如何微调模型的更详细解释，请参阅 this blog 。

该模型进行了以下预训练：

960小时的 LibriSpeech

Paper: UNISPEECH-SAT: UNIVERSAL SPEECH REPRESENTATION LEARNING WITH SPEAKER AWARE PRE-TRAINING

作者：Sanyuan Chen，Yu Wu，Chengyi Wang，Zhengyang Chen，Zhuo Chen，Shujie Liu，Jian Wu，Yao Qian，Furu Wei，Jinyu Li，Xiangzhan Yu

摘要自我监督学习（SSL）是语音处理的一个长期目标，因为它利用大规模的无标签数据，避免了大量的人工标注工作。近年来，在语音识别中应用自我监督学习取得了巨大成功，但对于建模说话人特征的SSL应用的研究仍然有限。本文旨在改进现有的SSL框架，用于说话人表示学习。我们介绍了两种方法来增强无监督说话人信息提取。首先，我们将多任务学习应用于当前的SSL框架，将话语对比损失与SSL目标函数结合起来。其次，为了更好地区分说话人，我们提出了一种用于数据增强的话语混合策略，其中在训练过程中无监督创建额外的重叠话语，并将其合并。我们将这些方法整合到HuBERT框架中。在SUPERB基准测试上的实验结果表明，所提出的系统在通用表示学习方面取得了最先进的性能，特别是针对说话人识别的任务。进行了消融研究，验证了每种提出方法的实效性。最后，我们将训练数据集扩大到了94,000小时的公共音频数据，并在所有SUPERB任务中进一步提高了性能。

原始模型可在 https://github.com/microsoft/UniSpeech/tree/main/UniSpeech-SAT 找到。

用法

这是一个英文预训练语音模型，在进行推理之前必须在下游任务（如语音识别或音频分类）上进行微调。该模型在英文上进行了预训练，因此只能在英文上表现良好。该模型在说话人验证、说话人识别和说话人分离等任务上表现良好。

注意：该模型是基于音素而不是字符进行预训练的。这意味着在进行微调之前，应确保将输入文本转换为音素序列。

语音识别

要对该模型进行语音识别的微调，请参阅 the official speech recognition example 。

语音分类

要对该模型进行语音分类的微调，请参阅 the official audio classification example 。

说话人验证

待定

说话人分离

待定

贡献

该模型由 cywang 和 patrickvonplaten 贡献。

许可

官方许可证可在 here 找到

作者:

Microsoft

数据集大小:

364.54 MB