模型:
ccoreilly/wav2vec2-large-xlsr-catala
在加泰罗尼亚语上使用 facebook/wav2vec2-large-xlsr-53 进行微调,利用了 Common Voice 和 ParlamentParla 数据集。
注意:所使用的训练/开发/测试集不完全与 CommonVoice 6.1 数据集匹配。采用了自定义的拆分方式,结合了 CommonVoice 和 ParlamentParla 数据集,可以在 here 中找到。在训练/评估该模型时,使用了 CV 测试数据集中的 1144 个音频文件,这样会产生有偏差的词错误率(WER)。WER 是使用这个 test.csv 计算的,而该模型在训练/评估过程中没有见过。
您可以在 GitHub 存储库 ccoreilly/wav2vec2-catala 中找到训练和评估脚本。
使用此模型时,请确保您的语音输入采样率为 16kHz。
单词错误率是在以下模型未见过的数据集上评估的:
| Dataset | WER |
|---|---|
| 1237321 | 6.92% |
| 1238321 | 12.99% |
| Audiobook “La llegenda de Sant Jordi” | 13.23% |
可以直接使用该模型(无需语言模型),方法如下:
import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
test_dataset = load_dataset("common_voice", "ca", split="test[:2%]")
processor = Wav2Vec2Processor.from_pretrained("ccoreilly/wav2vec2-large-xlsr-catala")
model = Wav2Vec2ForCTC.from_pretrained("ccoreilly/wav2vec2-large-xlsr-catala")
resampler = torchaudio.transforms.Resample(48_000, 16_000)
# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
speech_array, sampling_rate = torchaudio.load(batch["path"])
batch["speech"] = resampler(speech_array).squeeze().numpy()
return batch
test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"][:2], sampling_rate=16_000, return_tensors="pt", padding=True)
with torch.no_grad():
logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits
predicted_ids = torch.argmax(logits, dim=-1)
print("Prediction:", processor.batch_decode(predicted_ids))
print("Reference:", test_dataset["sentence"][:2])