模型:

jbetker/wav2vec2-large-robust-ft-libritts-voxpopuli

英文

这个检查点是一个wav2vec2-large模型,对于生成带有标点的转录非常有用。它用于构建TTS模型的转录,标点对于韵律非常重要。

这个模型是通过在 libritts voxpopuli 数据集上使用包含标点的新词汇表对facebook/wav2vec2-large-robust-ft-libri-960h检查点进行微调而创建的。

在librispeech验证集上,这个模型的词错误率(WER)为4.45%。基线模型facebook/wav2vec2-large-robust-ft-libri-960h的WER为4.3%。

由于该模型在干净的音频上进行了微调,不适用于CommonVoice等嘈杂的音频(不过我可能很快会上传适用于嘈杂音频的检查点)。然而,它仍然表现得不错。

词汇表也已上传到模型库中,名为jbetker/tacotron_symbols。

查看我的语音转录脚本存储库 ocotillo 获取使用示例: https://github.com/neonbjb/ocotillo