Whisper

Whisper是一个用于自动语音识别（ASR）和语音翻译的预训练模型。Whisper模型在680k小时的标记数据上进行训练，展示了在许多数据集和领域上的强大泛化能力，无需进行微调。

Whisper是由OpenAI的Alec Radford等人在论文 Robust Speech Recognition via Large-Scale Weak Supervision 中提出的。原始代码存储库可以在 here 找到。

免责声明：该模型卡片的内容部分由Hugging Face团队编写，其中包含了原始模型卡片的部分复制粘贴内容。

模型详情

Whisper是基于Transformer的编码器-解码器模型，也被称为序列到序列模型。它训练于使用大规模弱监督进行注释的680k小时标记语音数据。

模型的训练分为仅英语数据和多语言数据两种情况。仅英语模型训练于语音识别任务上，而多语言模型则同时训练了语音识别和语音翻译任务。对于语音识别，模型预测与音频相同语言的转录内容；对于语音翻译，模型预测与音频不同语言的转录内容。

Whisper检查点共有五个不同规模的配置。其中最小的四个是根据仅英语或多语言数据训练的。最大的检查点仅支持多语言。这十个预训练检查点可以在 Hugging Face Hub 上找到。下表总结了这些检查点并提供了到Hub上模型的链接：

...

作者:

OpenAI

数据集大小:

436.21 MB