accented_mandarin 数据集卡片

数据集概要

这个数据集包含了2000小时的汉语普通话语音数据。数据是从河南、山西、四川、湖南、福建等26个省份的当地讲者收集而来。内容涵盖了通用类别、人机交互、智能家居指令与控制、车载应用、数字等。格式是16kHz，16位，无压缩wav，单声道。句子准确率超过97%。详细信息请参考链接： https://bit.ly/39UzIwI

支持的任务和排行榜

automatic-speech-recognition, audio-speaker-identification: 该数据集可用于训练自动语音识别（ASR）模型。

语言

普通话的口音

数据集结构

数据示例

[需要更多信息]

数据字段

[需要更多信息]

数据集划分

[需要更多信息]

数据集创建

策划原因

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

源语言制作者是谁？

[需要更多信息]

标注

标注过程

[需要更多信息]

标注者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

商业许可证： https://drive.google.com/file/d/1saDCPm74D4UWfBL17VbkTsZLGfpOQj1J/view?usp=sharing

引用信息

[需要更多信息]

贡献

作者:

Datatang

数据集大小:

336.64 KB