数据集:
collectivat/tv3_parla
子任务:
language-modeling语言:
计算机处理:
monolingual大小:
100K<n<1M语言创建人:
found批注创建人:
found源数据集:
original许可:
该语料库包含来自广播材料的240小时的加泰罗尼亚语音。关于分割、数据处理和模型训练的细节在 Külebi, Öktem; 2018 中有详细说明。内容归Corporació Catalana de Mitjans Audiovisuals, SA (CCMA)所有;我们处理了他们的材料,并根据他们的使用条款提供。
这个项目得到了Softcatalà协会的支持。
该数据集可用于以下任务:
该数据集是加泰罗尼亚语(ca)。
{
  'path': 'tv3_0.3/wav/train/5662515_1492531876710/5662515_1492531876710_120.180_139.020.wav',
  'audio': {'path': 'tv3_0.3/wav/train/5662515_1492531876710/5662515_1492531876710_120.180_139.020.wav',
   'array': array([-0.01168823,  0.01229858,  0.02819824, ...,  0.015625  ,
          0.01525879,  0.0145874 ]),
   'sampling_rate': 16000},
  'text': 'algunes montoneres que que et feien anar ben col·locat i el vent també hi jugava una mica de paper bufava vent de cantó alguns cops o de cul i el pelotón el vent el porta molt malament hi havia molts nervis'
}
 该数据集分为"训练"和"测试"两部分。
| train | test | |
|---|---|---|
| Number of examples | 159242 | 2220 | 
[需要更多信息]
[需要更多信息]
谁是源语言的生产者?[需要更多信息]
[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
Creative Commons Attribution-NonCommercial 4.0 International .
@inproceedings{kulebi18_iberspeech,
  author={Baybars Külebi and Alp Öktem},
  title={{Building an Open Source Automatic Speech Recognition System for Catalan}},
  year=2018,
  booktitle={Proc. IberSPEECH 2018},
  pages={25--29},
  doi={10.21437/IberSPEECH.2018-6}
}
 感谢 @albertvillanova 添加了该数据集。