这是由Col·lectivaT准备的巴塞罗那议会(Parlament de Catalunya)加泰隆尼亚语演讲语料库。音频片段来自2007/07/11至2018/07/17期间的加泰隆尼亚议会全体会议录音。我们将录音与转录内容进行对齐,并提取了该语料库。内容属于加泰隆尼亚议会,并且数据的发布符合他们的使用条款。
这个语料库的准备部分得到了加泰隆尼亚自治政府文化部的支持,并且v2.0得到了巴塞罗那超级计算中心(Barcelona Supercomputing Center)的支持,该支持是在加泰隆尼亚自治政府维斯普里西和数字政策部(Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya)的Projecte AINA框架下进行的。
从v2.0开始,该语料库被分为211小时的干净音频和400小时的其他音质音频。此外,每个讲话片段都带有其发言人标签,每个发言人都有其性别标签。统计数据在自述文件中详细说明。
该数据集可用于以下任务:
该数据集为加泰隆尼亚语(ca-CA)。
{
'path': 'clean_train/c/c/ccca4790a55aba3e6bcf_63.88_74.06.wav'
'audio': {
'path': 'clean_train/c/c/ccca4790a55aba3e6bcf_63.88_74.06.wav',
'array': array([-6.10351562e-05, -6.10351562e-05, -1.22070312e-04, ...,
-1.22070312e-04, 0.00000000e+00, -3.05175781e-05]),
'sampling_rate': 16000
},
'speaker_id': 167,
'sentence': "alguns d'ells avui aquí presents un agraïment a aquells que mantenen viva la memòria aquest acte de reparació i dignitat és",
'gender': 0,
'duration': 10.18
}
该数据集被分为"train"、"validation"和"test"三个部分。
该数据集是通过对议会会议记录和视听内容进行对齐创建的。更详细的信息请参阅 paper 。
我们创建了这个语料库,以促进加泰隆尼亚语(一种资源匮乏的语言)语言模型的发展。
音频片段来自2007/07/11至2018/07/17期间的加泰隆尼亚议会全体会议录音。清理程序在存档的存储库 Long Audio Aligner 中。
谁是源语言的制作者?2007/07/11至2018/07/17期间的议会成员。
该数据集未经注释。
注释过程[不适用]
注释者是谁?[不适用]
初始内容是公开可用的,此外,议会成员的身份是匿名的。
我们希望该语料库能为加泰隆尼亚语(一种资源匮乏的语言)语言模型的发展做出贡献。
该数据集存在性别偏见,但由于发言者根据性别进行标记,因此可以创建一个平衡的子语料库。
| Subcorpus | Gender | Duration (h) |
|---|---|---|
| other_test | F | 2.516 |
| other_dev | F | 2.701 |
| other_train | F | 109.68 |
| other_test | M | 2.631 |
| other_dev | M | 2.513 |
| other_train | M | 280.196 |
| other total | 400.239 | |
| clean_test | F | 2.707 |
| clean_dev | F | 2.576 |
| clean_train | F | 77.905 |
| clean_test | M | 2.516 |
| clean_dev | M | 2.614 |
| clean_train | M | 123.162 |
| clean total | 211.48 | |
| Total | 611.719 |
文本语料库属于加泰隆尼亚政治领域。
巴塞罗那超级计算中心( bsc-temu@bsc.es )的文本挖掘单元(TeMU)
这项工作由 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya 在 Projecte AINA 框架下的资助完成。
Creative Commons Attribution 4.0 International .
@dataset{kulebi_baybars_2021_5541827,
author = {Külebi, Baybars},
title = {{ParlamentParla - Speech corpus of Catalan
Parliamentary sessions}},
month = oct,
year = 2021,
publisher = {Zenodo},
version = {v2.0},
doi = {10.5281/zenodo.5541827},
url = {https://doi.org/10.5281/zenodo.5541827}
}
提示:对于该论文: @inproceedings{kulebi2022parlamentparla,
title={ParlamentParla: A Speech Corpus of Catalan Parliamentary Sessions},
author={K{\"u}lebi, Baybars and Armentano-Oller, Carme and Rodr{\'\i}guez-Penagos, Carlos and Villegas, Marta},
booktitle={Workshop on Creating, Enriching and Using Parliamentary Corpora},
volume={125},
number={130},
pages={125},
year={2022}
}
感谢 @albertvillanova 提供这个数据集。