英文

CVIT MKB 数据集卡片

数据集摘要

印度总理的演讲——Mann Ki Baat,以多种语言翻译播放在全印度广播中。

支持的任务和排行榜

[需要更多信息]

语言

印地语,泰卢固语,泰米尔语,马拉雅拉姆语,古吉拉特语,乌尔都语,孟加拉语,欧里亚语,马拉地语,旁遮普语和英语

数据集结构

数据实例

[需要更多信息]

数据字段

  • src_tag: 源语言文本
  • tgt_tag: 源语言文本的目标语言翻译

数据划分

[需要更多信息]

数据集创建

策展理由

[需要更多信息]

源数据

[需要更多信息]

初始数据收集与规范化

[需要更多信息]

谁是源语言生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策展人

[需要更多信息]

许可信息

此处提供的数据集和预训练模型使用知识共享署名-相同方式共享4.0国际许可进行许可。

引用信息

@misc{siripragada2020multilingual,
      title={A Multilingual Parallel Corpora Collection Effort for Indian Languages},
      author={Shashank Siripragada and Jerin Philip and Vinay P. Namboodiri and C V Jawahar},
      year={2020},
      eprint={2007.07691},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

贡献

感谢 @vasudevgupta7 添加了该数据集。