英文

"wmt16" 数据集卡片

数据集简介

警告:Common Crawl语料库数据存在问题( training-parallel-commoncrawl.tgz ):

  • 非英语文件中包含许多英语句子。
  • 其中英文的“平行”句子没有对齐:与其对应的句子无关。

我们已经联系了WMT组织者。

基于statmt.org的数据的翻译数据集。

不同年份的版本使用多种数据源。基础wmt允许您通过选择自己的数据/语言对来创建自定义数据集。可以按照以下步骤完成:

from datasets import inspect_dataset, load_dataset_builder

inspect_dataset("wmt16", "path/to/scripts")
builder = load_dataset_builder(
    "path/to/scripts/wmt_utils.py",
    language_pair=("fr", "de"),
    subsets={
        datasets.Split.TRAIN: ["commoncrawl_frde"],
        datasets.Split.VALIDATION: ["euelections_dev2019"],
    },
)

# Standard version
builder.download_and_prepare()
ds = builder.as_dataset()

# Streamable version
ds = builder.as_streaming_dataset()

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

cs-en
  • 下载的数据集文件大小:1.69 GB
  • 生成的数据集大小:297.28 MB
  • 总计使用的磁盘容量:1.99 GB

“验证”示例如下所示。

数据字段

所有拆分之间的数据字段相同。

cs-en
  • translation: 一个多语言字符串变量,可能的语言包括cs,en。

数据拆分

name train validation test
cs-en 997240 2656 2999

数据集创建

策划理由

More Information Needed

来源数据

初始数据收集和规范化

More Information Needed

数据来源语言的生产者是谁?

More Information Needed

注释

注释过程

More Information Needed

注释者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@InProceedings{bojar-EtAl:2016:WMT1,
  author    = {Bojar, Ond
{r}ej  and  Chatterjee, Rajen  and  Federmann, Christian  and  Graham, Yvette  and  Haddow, Barry  and  Huck, Matthias  and  Jimeno Yepes, Antonio  and  Koehn, Philipp  and  Logacheva, Varvara  and  Monz, Christof  and  Negri, Matteo  and  Neveol, Aurelie  and  Neves, Mariana  and  Popel, Martin  and  Post, Matt  and  Rubino, Raphael  and  Scarton, Carolina  and  Specia, Lucia  and  Turchi, Marco  and  Verspoor, Karin  and  Zampieri, Marcos},
  title     = {Findings of the 2016 Conference on Machine Translation},
  booktitle = {Proceedings of the First Conference on Machine Translation},
  month     = {August},
  year      = {2016},
  address   = {Berlin, Germany},
  publisher = {Association for Computational Linguistics},
  pages     = {131--198},
  url       = {http://www.aclweb.org/anthology/W/W16/W16-2301}
}

贡献者

感谢 @thomwolf @patrickvonplaten 添加了这个数据集。