数据集:

Datatang/mandarin_chinese

英文

mandarin_chinese数据集卡片

数据集摘要

该数据集包含15000小时的普通话语音数据。这些数据来自中国33个省份的本地普通话使用者,涵盖多种场景和环境。数据格式为16kHz、16bit、无压缩的wav文件,单声道。句子准确率超过97%。详情请参考链接: https://bit.ly/39UzIwI

支持的任务和排行榜

自动语音识别,语音说话人识别:该数据集可用于训练自动语音识别(ASR)模型。

语言

普通话

数据集结构

数据实例

[需要更多信息]

数据字段

[需要更多信息]

数据拆分

[需要更多信息]

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

标注

标注过程

[需要更多信息]

谁是标注者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

商业许可证: https://drive.google.com/file/d/1saDCPm74D4UWfBL17VbkTsZLGfpOQj1J/view?usp=sharing

引用信息

[需要更多信息]

贡献