多语言对话数据集卡片

数据集简介

数据集包含12000个小时的多语言对话语音数据。数据由母语为英语、法语、德语、俄语、西班牙语、日语、韩语、印地语、越南语等的说话者录制，涵盖了常见话题，以确保对话的流畅和自然。格式为16kHz、16bit、无压缩wav、单声道。句子准确率超过95%。更多详细信息，请参考链接： https://bit.ly/39UzIwI

支持的任务和排行榜

自动语音识别，音频说话人识别：该数据集可以用于训练自动语音识别（ASR）模型。

语言

英语、法语、德语、俄语、西班牙语、日语、韩语、印地语、越南语等。

数据集结构

数据示例

[需要更多信息]

数据字段

[需要更多信息]

数据划分

[需要更多信息]

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的生产者？

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

商业许可： https://drive.google.com/file/d/1saDCPm74D4UWfBL17VbkTsZLGfpOQj1J/view?usp=sharing

引用信息

[需要更多信息]

贡献

作者:

Datatang

数据集大小:

73.66 MB