数据集:
common_language
任务:
计算机处理:
multilingual大小:
100K<n<1M语言创建人:
crowdsourced批注创建人:
crowdsourced源数据集:
extended|common_voice许可:
该数据集由从CommonVoice数据库中精选出的语音记录组成。音频录音的总时长为45.1小时(即每种语言1小时的素材)。该数据集已从CommonVoice中提取出来以用于训练语言识别系统。
语言识别的基准模型可以在SpeechBrain工具包中找到(参见recipes/CommonLanguage): https://github.com/speechbrain/speechbrain
包含的语言列表:
Arabic, Basque, Breton, Catalan, Chinese_China, Chinese_Hongkong, Chinese_Taiwan, Chuvash, Czech, Dhivehi, Dutch, English, Esperanto, Estonian, French, Frisian, Georgian, German, Greek, Hakha_Chin, Indonesian, Interlingua, Italian, Japanese, Kabyle, Kinyarwanda, Kyrgyz, Latvian, Maltese, Mongolian, Persian, Polish, Portuguese, Romanian, Romansh_Sursilvan, Russian, Sakha, Slovenian, Spanish, Swedish, Tamil, Tatar, Turkish, Ukranian, Welsh
典型的数据点由音频文件的路径和其标签(语言)组成。其他字段包括年龄、客户端ID、性别和句子。
{
  'client_id': 'itln_trn_sp_175',
  'path': '/path/common_voice_kpd/Italian/train/itln_trn_sp_175/common_voice_it_18279446.wav',
  'audio': {'path': '/path/common_voice_kpd/Italian/train/itln_trn_sp_175/common_voice_it_18279446.wav',
           'array': array([-0.00048828, -0.00018311, -0.00137329, ...,  0.00079346, 0.00091553,  0.00085449], dtype=float32),
           'sampling_rate': 48000},
  'sentence': 'Con gli studenti è leggermente simile.',
  'age': 'not_defined',
  'gender': 'not_defined',
  'language': 22
}
 client_id(字符串):哪个客户端(声音)进行了录音
path(字符串):音频文件的路径
语言(ClassLabel):录音的语言(请参见上面的语言部分)
句子(字符串):用户提示要说的句子
年龄(字符串):说话者的年龄。
性别(字符串):说话者的性别
数据集已经平衡,并拆分为训练、开发(验证)和测试集。
| Name | Train | Dev | Test | 
|---|---|---|---|
| # of utterances | 177552 | 47104 | 47704 | 
| # unique speakers | 11189 | 1297 | 1322 | 
| Total duration, hr | 30.04 | 7.53 | 7.53 | 
| Min duration, sec | 0.86 | 0.98 | 0.89 | 
| Mean duration, sec | 4.87 | 4.61 | 4.55 | 
| Max duration, sec | 21.72 | 105.67 | 29.83 | 
| Duration per language, min | ~40 | ~10 | ~10 | 
该数据集包含在线捐赠声音的人。您同意不尝试确定Common Voice数据集中说话者的身份。
该数据集包含在线捐赠声音的人。您同意不尝试确定Common Voice数据集中说话者的身份。
在该版本的数据集中,蒙古语和乌克兰语的拼写为"Mangolian"和"Ukranian"。
Ganesh Sinisetty; Pavlo Ruban; Oleksandr Dymov; Mirco Ravanelli
Creative Commons Attribution 4.0 International
@dataset{ganesh_sinisetty_2021_5036977,
  author       = {Ganesh Sinisetty and
                  Pavlo Ruban and
                  Oleksandr Dymov and
                  Mirco Ravanelli},
  title        = {CommonLanguage},
  month        = jun,
  year         = 2021,
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5036977},
  url          = {https://doi.org/10.5281/zenodo.5036977}
}
 感谢 @anton-l 添加了此数据集。