accented-english 数据集卡片

数据集摘要

该数据集包含20000个小时的非标准英语语音数据。数据收集自超过20个国家的当地英语使用者，如美国、中国、英国、德国、日本、印度、法国、西班牙、俄罗斯、拉丁美洲等，涵盖了各种发音习惯和特点、口音程度以及说话者的分布。音频格式为16kHz、16bit、未压缩的wav文件，单声道。句子准确率超过95%。详细信息请参考链接： https://bit.ly/39UzIwI

支持的任务和排行榜

自动语音识别（ASR），音频说话人识别：该数据集可用于训练自动语音识别（ASR）模型。

语言

英语

数据集结构

数据实例

[需要更多信息]

数据字段

[需要更多信息]

数据拆分

[需要更多信息]

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和归一化

[需要更多信息]

源语言制作者是谁？

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的考虑事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集维护者

[需要更多信息]

许可信息

商业许可证： https://drive.google.com/file/d/1saDCPm74D4UWfBL17VbkTsZLGfpOQj1J/view?usp=sharing

引用信息

[需要更多信息]

贡献

作者:

Datatang

数据集大小:

515.75 KB