数据集:

common_voice

任务:

自动语音识别

语言:

计算机处理:

multilingual

大小:

100K<n<1M 10K<n<100K 1K<n<10K

语言创建人:

crowdsourced

批注创建人:

crowdsourced

源数据集:

extended|common_voice

许可:

cc0-1.0

数据集介绍文件清单

英文

common_voice 数据集的数据卡片

弃用：数据集 "common_voice" 已经被弃用，将很快被删除。请改用 mozilla-foundation 组织下的数据集。例如，您可以通过 load_dataset("mozilla-foundation/common_voice_13_0", "en") 加载 Common Voice 13 数据集

数据集摘要

Common Voice 数据集包括独特的 MP3 文件和相应的文本文件。数据集中的许多 9,283 个记录小时也包括年龄、性别和口音等人口统计元数据，这可以帮助训练语音识别引擎的准确性。

数据集当前包含 60 种语言的 7,335 个已验证小时数，但我们始终在添加更多的语音和语言。请查看我们的语言页面以请求语言或开始贡献。

支持的任务和排行榜

[需要更多信息]

语言

英语

数据集结构

数据实例

一个典型的数据点包括音频文件的路径，称为 path，以及对应的句子。其他字段包括口音、年龄、client_id、up_votes、down_votes、gender、locale 和 segment。

{'accent': 'netherlands', 'age': 'fourties', 'client_id': 'bbbcb732e0f422150c30ff3654bbab572e2a617da107bca22ff8b89ab2e4f124d03b6a92c48322862f60bd0179ae07baf0f9b4f9c4e11d581e0cec70f703ba54', 'down_votes': 0, 'gender': 'male', 'locale': 'nl', 'path': 'nl/clips/common_voice_nl_23522441.mp3', 'segment': "''", 'sentence': 'Ik vind dat een dubieuze procedure.', 'up_votes': 2, 'audio': {'path': nl/clips/common_voice_nl_23522441.mp3', 'array': array([-0.00048828, -0.00018311, -0.00137329, ..., 0.00079346, 0.00091553, 0.00085449], dtype=float32), 'sampling_rate': 48000}`

数据字段

client_id：表示记录的客户端（声音）的 id

path：音频文件的路径

audio：一个包含下载音频文件的路径、解码音频数组和采样率的字典。请注意，在访问 audio 列时：dataset[0]["audio"]，音频文件会自动解码并重新采样为 dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要很长时间。因此，在"audio"列之前，首先查询样本索引非常重要，即优先选择 dataset[0]["audio"]，而不是 dataset["audio"][0]。

sentence：用户要求发音的句子

up_votes：音频文件从评论者那里获得的赞数

down_votes：音频文件从评论者那里获得的踩数

age：说话者的年龄

gender：说话者的性别

accent：说话者的口音

locale：说话者的语言环境

segment：通常是空字段

数据拆分

语音材料已经分为 dev、train、test、validated、invalidated、reported 和其他部分。

验证数据是已经通过评审人员验证的数据，获得了数据质量较高的赞同票。

无效数据是评审人员无效化的数据，获得了数据质量较低的踩票。

报告的数据是因不同原因而被报告的数据。

其他数据是尚未经过审核的数据。

dev、test、train 都是经过审核、质量较高并分割为 dev、test 和 train 的数据。

数据集创建

策划原因

[需要更多信息]

源数据

Initial Data Collection and Normalization

[需要更多信息]

谁是源语言的产生者？

[需要更多信息]

注释

注释过程

[需要更多信息]

注释员是谁？

[需要更多信息]

个人和敏感信息

该数据集包含在线捐赠自己声音的人。您同意不试图确定 Common Voice 数据集中的说话者的身份。

使用数据的注意事项

数据的社会影响

该数据集包含在线捐赠自己声音的人。您同意不试图确定 Common Voice 数据集中的说话者的身份。

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

Public Domain, CC-0

引用信息

@inproceedings{commonvoice:2020,
  author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.},
  title = {Common Voice: A Massively-Multilingual Speech Corpus},
  booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)},
  pages = {4211--4215},
  year = 2020
}

贡献者

感谢 @BirgerMoell 添加此数据集。

作者:

佚名

数据集大小:

258.41 KB