数据集:

Datatang/chinese_dialect

英文

Dataset Card for chinese_dialect

数据集概要

该数据集包含25,000小时的汉语方言语音数据。它收集自多个方言地区的本地方言讲者,涵盖福建话、粤语、四川话、河南方言、东北方言、上海方言、维吾尔语和藏语等。格式为16kHz、16bit、无压缩wav、单声道。句子准确率超过95%。更多详细信息,请参考链接: https://bit.ly/39UzIwI

支持的任务和排行榜

自动语音识别(ASR),音频说话人识别:该数据集可用于训练自动语音识别(ASR)模型。

语言

中国方言

数据集结构

数据示例

[需要更多信息]

数据字段

[需要更多信息]

数据划分

[需要更多信息]

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和归一化

[需要更多信息]

谁是源语言制作人?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

商业许可证: https://drive.google.com/file/d/1saDCPm74D4UWfBL17VbkTsZLGfpOQj1J/view?usp=sharing

引用信息

[需要更多信息]

贡献