数据集:

iwslt2017

任务:

翻译

计算机处理:

translation

大小:

1M<n<10M

语言创建人:

expert-generated

批注创建人:

crowdsourced

源数据集:

original
英文

IWSLT 2017 数据集卡片

数据集概述

IWSLT 2017 多语言任务涉及文本翻译,包括零翻译,使用单个 MT 系统在所有方向上进行翻译,包括英语、德语、荷兰语、意大利语和罗马尼亚语。作为非官方任务,英语和阿拉伯语、法语、日语、中文、德语和韩语之间提供传统的双语文本翻译。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

iwslt2017-ar-en
  • 下载的数据集文件大小:27.75 MB
  • 生成的数据集大小:58.74 MB
  • 总使用磁盘空间:86.49 MB

"train" 的示例如下。

This example was too long and was cropped:

{
    "translation": "{\"ar\": \"لقد طرت في \\\"القوات الجوية \\\" لمدة ثمان سنوات. والآن أجد نفسي مضطرا لخلع حذائي قبل صعود الطائرة!\", \"en\": \"I flew on Air ..."
}
iwslt2017-de-en
  • 下载的数据集文件大小:16.76 MB
  • 生成的数据集大小:44.43 MB
  • 总使用磁盘空间:61.18 MB

"train" 的示例如下。

{
    "translation": {
        "de": "Es ist mir wirklich eine Ehre, zweimal auf dieser Bühne stehen zu dürfen. Tausend Dank dafür.",
        "en": "And it's truly a great honor to have the opportunity to come to this stage twice; I'm extremely grateful."
    }
}
iwslt2017-en-ar
  • 下载的数据集文件大小:29.33 MB
  • 生成的数据集大小:58.74 MB
  • 总使用磁盘空间:88.07 MB

"train" 的示例如下。

This example was too long and was cropped:

{
    "translation": "{\"ar\": \"لقد طرت في \\\"القوات الجوية \\\" لمدة ثمان سنوات. والآن أجد نفسي مضطرا لخلع حذائي قبل صعود الطائرة!\", \"en\": \"I flew on Air ..."
}
iwslt2017-en-de
  • 下载的数据集文件大小:16.76 MB
  • 生成的数据集大小:44.43 MB
  • 总使用磁盘空间:61.18 MB

"validation" 的示例如下。

{
    "translation": {
        "de": "Die nächste Folie, die ich Ihnen zeige, ist eine Zeitrafferaufnahme was in den letzten 25 Jahren passiert ist.",
        "en": "The next slide I show you will be  a rapid fast-forward of what's happened over the last 25 years."
    }
}
iwslt2017-en-fr
  • 下载的数据集文件大小:27.69 MB
  • 生成的数据集大小:51.24 MB
  • 总使用磁盘空间:78.94 MB

"validation" 的示例如下。

{
    "translation": {
        "en": "But this understates the seriousness of this particular problem  because it doesn't show the thickness of the ice.",
        "fr": "Mais ceci tend à amoindrir le problème parce qu'on ne voit pas l'épaisseur de la glace."
    }
}

数据字段

所有拆分的数据字段相同。

iwslt2017-ar-en
  • translation:多语言字符串变量,可能的语言包括 ar,en。
iwslt2017-de-en
  • translation:多语言字符串变量,可能的语言包括 de,en。
iwslt2017-en-ar
  • translation:多语言字符串变量,可能的语言包括 en,ar。
iwslt2017-en-de
  • translation:多语言字符串变量,可能的语言包括 en,de。
iwslt2017-en-fr
  • translation:多语言字符串变量,可能的语言包括 en,fr。

数据拆分

name train validation test
iwslt2017-ar-en 231713 888 8583
iwslt2017-de-en 206112 888 8079
iwslt2017-en-ar 231713 888 8583
iwslt2017-en-de 206112 888 8079
iwslt2017-en-fr 232825 890 8597

数据集创建

策划理由

More Information Needed

原始数据

初始数据收集和规范化

More Information Needed

源语言制作者是谁?

More Information Needed

注释

注释过程

More Information Needed

标注者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

许可信息

Creative Commons BY-NC-ND

请参阅 (TED Talks Usage Policy)[ https://www.ted.com/about/our-organization/our-policies-terms/ted-talks-usage-policy] ]。

引用信息

@inproceedings{cettolo-etal-2017-overview,
    title = "Overview of the {IWSLT} 2017 Evaluation Campaign",
    author = {Cettolo, Mauro  and
      Federico, Marcello  and
      Bentivogli, Luisa  and
      Niehues, Jan  and
      St{\"u}ker, Sebastian  and
      Sudoh, Katsuhito  and
      Yoshino, Koichiro  and
      Federmann, Christian},
    booktitle = "Proceedings of the 14th International Conference on Spoken Language Translation",
    month = dec # " 14-15",
    year = "2017",
    address = "Tokyo, Japan",
    publisher = "International Workshop on Spoken Language Translation",
    url = "https://aclanthology.org/2017.iwslt-1.1",
    pages = "2--14",
}

贡献

感谢 @thomwolf @Narsil 添加此数据集。