英文

"wmt14"的数据集卡片

数据集概要

警告:Common Crawl语料库数据存在问题( training-parallel-commoncrawl.tgz ):

  • 非英语文件包含许多英语句子。
  • 它们的英语“平行”句子未对齐:与对应的句子不相关。

我们已经联系了WMT组织者。

基于statmt.org数据的翻译数据集。

不同年份的版本使用了多个数据源的组合。基于wmt基础可以通过选择自己的数据/语言对来创建自定义数据集。可以按照以下方式进行:

from datasets import inspect_dataset, load_dataset_builder

inspect_dataset("wmt14", "path/to/scripts")
builder = load_dataset_builder(
    "path/to/scripts/wmt_utils.py",
    language_pair=("fr", "de"),
    subsets={
        datasets.Split.TRAIN: ["commoncrawl_frde"],
        datasets.Split.VALIDATION: ["euelections_dev2019"],
    },
)

# Standard version
builder.download_and_prepare()
ds = builder.as_dataset()

# Streamable version
ds = builder.as_streaming_dataset()

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

cs-en
  • 下载的数据集文件大小:1.70 GB
  • 生成的数据集大小:282.95 MB
  • 总磁盘使用量:1.98 GB

'train'的一个示例如下所示。

数据字段

数据字段在所有拆分之间相同。

cs-en
  • translation:多语言字符串变量,可能的语言包括cs,en。

数据拆分

name train validation test
cs-en 953621 3000 3003

数据集创建

策划原理

More Information Needed

原始数据

初始数据收集和标准化

More Information Needed

源语言制片人是谁?

More Information Needed

注释

注释过程

More Information Needed

注释者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

其他信息

数据集策展人

More Information Needed

授权信息

More Information Needed

引文信息

@InProceedings{bojar-EtAl:2014:W14-33,
  author    = {Bojar, Ondrej  and  Buck, Christian  and  Federmann, Christian  and  Haddow, Barry  and  Koehn, Philipp  and  Leveling, Johannes  and  Monz, Christof  and  Pecina, Pavel  and  Post, Matt  and  Saint-Amand, Herve  and  Soricut, Radu  and  Specia, Lucia  and  Tamchyna, Ale
{s}},
  title     = {Findings of the 2014 Workshop on Statistical Machine Translation},
  booktitle = {Proceedings of the Ninth Workshop on Statistical Machine Translation},
  month     = {June},
  year      = {2014},
  address   = {Baltimore, Maryland, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {12--58},
  url       = {http://www.aclweb.org/anthology/W/W14/W14-3302}
}

贡献

感谢 @thomwolf @patrickvonplaten 添加了这个数据集。