模型:
Harveenchadha/wav2vec2-pretrained-clsril-23-10k
我们提供了一个基于自我监督学习的音频预训练模型CLSRIL-23(跨印度语言的跨语言语音表示),它可以从23种印度语言的原始音频中学习跨语言的语音表示。它是基于wav2vec2.0构建的,通过对掩码潜在语音表示进行对比任务训练,并共同学习所有语言共享的潜在语音量化。
Original Repo 以fairseq格式包含模型。
| Language | Data (In Hrs) |
|---|---|
| Assamese | 254.9 |
| Bengali | 331.3 |
| Bodo | 26.9 |
| Dogri | 17.1 |
| English | 819.7 |
| Gujarati | 336.7 |
| Hindi | 4563.7 |
| Kannada | 451.8 |
| Kashmiri | 67.8 |
| Konkani | 36.8 |
| Maithili | 113.8 |
| Malayalam | 297.7 |
| Manipuri | 171.9 |
| Marathi | 458.2 |
| Nepali | 31.6 |
| Odia | 131.4 |
| Punjabi | 486.05 |
| Sanskrit | 58.8 |
| Santali | 6.56 |
| Sindhi | 16 |
| Tamil | 542.6 |
| Telugu | 302.8 |
| Urdu | 259.68 |
Experimentation 是建立在fairseq之上的平台。