数据集:

common_voice

英文

common_voice 数据集的数据卡片

弃用:数据集 "common_voice" 已经被弃用,将很快被删除。请改用 mozilla-foundation 组织下的数据集。例如,您可以通过 load_dataset("mozilla-foundation/common_voice_13_0", "en") 加载 Common Voice 13 数据集

数据集摘要

Common Voice 数据集包括独特的 MP3 文件和相应的文本文件。数据集中的许多 9,283 个记录小时也包括年龄、性别和口音等人口统计元数据,这可以帮助训练语音识别引擎的准确性。

数据集当前包含 60 种语言的 7,335 个已验证小时数,但我们始终在添加更多的语音和语言。请查看我们的语言页面以请求语言或开始贡献。

支持的任务和排行榜

[需要更多信息]

语言

英语

数据集结构

数据实例

一个典型的数据点包括音频文件的路径,称为 path,以及对应的句子。其他字段包括口音、年龄、client_id、up_votes、down_votes、gender、locale 和 segment。

{'accent': 'netherlands', 'age': 'fourties', 'client_id': 'bbbcb732e0f422150c30ff3654bbab572e2a617da107bca22ff8b89ab2e4f124d03b6a92c48322862f60bd0179ae07baf0f9b4f9c4e11d581e0cec70f703ba54', 'down_votes': 0, 'gender': 'male', 'locale': 'nl', 'path': 'nl/clips/common_voice_nl_23522441.mp3', 'segment': "''", 'sentence': 'Ik vind dat een dubieuze procedure.', 'up_votes': 2, 'audio': {'path': nl/clips/common_voice_nl_23522441.mp3', 'array': array([-0.00048828, -0.00018311, -0.00137329, ..., 0.00079346, 0.00091553, 0.00085449], dtype=float32), 'sampling_rate': 48000}`

数据字段

client_id:表示记录的客户端(声音)的 id

path:音频文件的路径

audio:一个包含下载音频文件的路径、解码音频数组和采样率的字典。请注意,在访问 audio 列时:dataset[0]["audio"],音频文件会自动解码并重新采样为 dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要很长时间。因此,在"audio"列之前,首先查询样本索引非常重要,即优先选择 dataset[0]["audio"],而不是 dataset["audio"][0]。

sentence:用户要求发音的句子

up_votes:音频文件从评论者那里获得的赞数

down_votes:音频文件从评论者那里获得的踩数

age:说话者的年龄

gender:说话者的性别

accent:说话者的口音

locale:说话者的语言环境

segment:通常是空字段

数据拆分

语音材料已经分为 dev、train、test、validated、invalidated、reported 和其他部分。

验证数据是已经通过评审人员验证的数据,获得了数据质量较高的赞同票。

无效数据是评审人员无效化的数据,获得了数据质量较低的踩票。

报告的数据是因不同原因而被报告的数据。

其他数据是尚未经过审核的数据。

dev、test、train 都是经过审核、质量较高并分割为 dev、test 和 train 的数据。

数据集创建

策划原因

[需要更多信息]

源数据

Initial Data Collection and Normalization

[需要更多信息]

谁是源语言的产生者?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释员是谁?

[需要更多信息]

个人和敏感信息

该数据集包含在线捐赠自己声音的人。您同意不试图确定 Common Voice 数据集中的说话者的身份。

使用数据的注意事项

数据的社会影响

该数据集包含在线捐赠自己声音的人。您同意不试图确定 Common Voice 数据集中的说话者的身份。

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

Public Domain, CC-0

引用信息

@inproceedings{commonvoice:2020,
  author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.},
  title = {Common Voice: A Massively-Multilingual Speech Corpus},
  booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)},
  pages = {4211--4215},
  year = 2020
}

贡献者

感谢 @BirgerMoell 添加此数据集。