英文

Whisper

Whisper是一个用于自动语音识别(ASR)和语音翻译的预训练模型。Whisper模型在680k小时的标记数据上进行训练,展示了在许多数据集和领域上的强大泛化能力,无需进行微调。

Whisper是由OpenAI的Alec Radford等人在论文 Robust Speech Recognition via Large-Scale Weak Supervision 中提出的。原始代码存储库可以在 here 找到。

免责声明:该模型卡片的内容部分由Hugging Face团队编写,其中包含了原始模型卡片的部分复制粘贴内容。

模型详情

Whisper是基于Transformer的编码器-解码器模型,也被称为序列到序列模型。它训练于使用大规模弱监督进行注释的680k小时标记语音数据。

模型的训练分为仅英语数据和多语言数据两种情况。仅英语模型训练于语音识别任务上,而多语言模型则同时训练了语音识别和语音翻译任务。对于语音识别,模型预测与音频相同语言的转录内容;对于语音翻译,模型预测与音频不同语言的转录内容。

Whisper检查点共有五个不同规模的配置。其中最小的四个是根据仅英语或多语言数据训练的。最大的检查点仅支持多语言。这十个预训练检查点可以在 Hugging Face Hub 上找到。下表总结了这些检查点并提供了到Hub上模型的链接:

...