数据集:

turkic_xwmt

预印本库:

arxiv:2109.04593

许可:

mit

批注创建人:

crowdsourced

语言创建人:

found

大小:

n<1K

计算机处理:

translation

任务:

翻译
英文

turkic_xwmt 数据集卡片

数据集简介

为了为突厥语系机器翻译建立一个全面且具有挑战性的评估基准,我们将最初在WMT 2020新闻翻译任务中引入的一个测试集进行了翻译,该测试集用于英俄之间的翻译。原始数据集由专业翻译的句子组成,既有英语的句子也有俄语的句子,并来自新闻文章。我们采用了这个评估集(X-WMT)并开始努力将其翻译成几种突厥语言。当前版本的X-WMT包括8种突厥语言和88个语言方向,每个语言方向至少有300个句子。

支持的任务和排行榜

[需要更多信息]

语言

目前支持的语言(除了英语和俄语)有:

  • 阿塞拜疆语(az)
  • 巴什基尔语(ba)
  • 卡拉卡尔帕克语(kaa)
  • 哈萨克语(kk)
  • 吉尔吉斯语(ky)
  • 土耳其语(tr)
  • 萨哈语(sah)
  • 乌兹别克语(uz)

数据集结构

数据示例

俄语-乌兹别克语数据集的一个随机示例:

{"translation": {'ru': 'Моника Мутсвангва , министр информации Зимбабве , утверждает , что полиция вмешалась в отъезд Магомбейи из соображений безопасности и вследствие состояния его здоровья .', 'uz': 'Zimbabvening Axborot vaziri , Monika Mutsvanva Magombeyining xavfsizligi va sog'ligi tufayli bo'lgan jo'nab ketishinida politsiya aralashuvini ushlab turadi .'}}

数据字段

每个示例都有一个字段“translation”,其中包含两个子字段:每种语言一个,例如俄语-乌兹别克语数据集:

  • translation:一个包含两个子字段的字典:
    • ru:俄语文本
    • uz:乌兹别克语文本

数据拆分

点击这里查看每个配置的示例数量: | | test | |:--------|-------:| | az-ba | 600 | | az-en | 600 | | az-kaa | 300 | | az-kk | 500 | | az-ky | 500 | | az-ru | 600 | | az-sah | 300 | | az-tr | 500 | | az-uz | 600 | | ba-az | 600 | | ba-en | 1000 | | ba-kaa | 300 | | ba-kk | 700 | | ba-ky | 500 | | ba-ru | 1000 | | ba-sah | 300 | | ba-tr | 700 | | ba-uz | 900 | | en-az | 600 | | en-ba | 1000 | | en-kaa | 300 | | en-kk | 700 | | en-ky | 500 | | en-ru | 1000 | | en-sah | 300 | | en-tr | 700 | | en-uz | 900 | | kaa-az | 300 | | kaa-ba | 300 | | kaa-en | 300 | | kaa-kk | 300 | | kaa-ky | 300 | | kaa-ru | 300 | | kaa-sah | 300 | | kaa-tr | 300 | | kaa-uz | 300 | | kk-az | 500 | | kk-ba | 700 | | kk-en | 700 | | kk-kaa | 300 | | kk-ky | 500 | | kk-ru | 700 | | kk-sah | 300 | | kk-tr | 500 | | kk-uz | 700 | | ky-az | 500 | | ky-ba | 500 | | ky-en | 500 | | ky-kaa | 300 | | ky-kk | 500 | | ky-ru | 500 | | ky-sah | 300 | | ky-tr | 400 | | ky-uz | 500 | | ru-az | 600 | | ru-ba | 1000 | | ru-en | 1000 | | ru-kaa | 300 | | ru-kk | 700 | | ru-ky | 500 | | ru-sah | 300 | | ru-tr | 700 | | ru-uz | 900 | | sah-az | 300 | | sah-ba | 300 | | sah-en | 300 | | sah-kaa | 300 | | sah-kk | 300 | | sah-ky | 300 | | sah-ru | 300 | | sah-tr | 300 | | sah-uz | 300 | | tr-az | 500 | | tr-ba | 700 | | tr-en | 700 | | tr-kaa | 300 | | tr-kk | 500 | | tr-ky | 400 | | tr-ru | 700 | | tr-sah | 300 | | tr-uz | 600 | | uz-az | 600 | | uz-ba | 900 | | uz-en | 900 | | uz-kaa | 300 | | uz-kk | 700 | | uz-ky | 500 | | uz-ru | 900 | | uz-sah | 300 | | uz-tr | 600 |

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

翻译员、注释者和数据集贡献者(按字母顺序)

Abilxayr Zholdybai Aigiz Kunafin Akylbek Khamitov Alperen Cantez Aydos Muxammadiyarov Doniyorbek Rafikjonov Erkinbek Vokhabov Ipek Baris Iskander Shakirov Madina Zokirjonova Mohiyaxon Uzoqova Mukhammadbektosh Khaydarov Nurlan Maharramli Petr Popov Rasul Karimov Sariya Kagarmanova Ziyodabonu Qobiljon qizi

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

MIT License

引用信息

@inproceedings{mirzakhalov2021large,
  title={A Large-Scale Study of Machine Translation in Turkic Languages},
  author={Mirzakhalov, Jamshidbek and Babu, Anoop and Ataman, Duygu and Kariev, Sherzod and Tyers, Francis and Abduraufov, Otabek and Hajili, Mammad and Ivanova, Sardana and Khaytbaev, Abror and Laverghetta Jr, Antonio and others},
  booktitle={Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing},
  pages={5876--5890},
  year={2021}
}

贡献

该项目得到了数十个个人和组织的帮助和贡献。我们对他们每个人都表示感谢:

出版物作者(按字母顺序)

Abror Khaytbaev Ahsan Wahab Aigiz Kunafin Anoop Babu Antonio Laverghetta Jr. Behzodbek Moydinboyev Dr. Duygu Ataman Esra Onal Dr. Francis Tyers Jamshidbek Mirzakhalov Dr. John Licato Dr. Julia Kreutzer Mammad Hajili Mokhiyakhon Uzokova Dr. Orhan Firat Otabek Abduraufov Sardana Ivanova Shaxnoza Pulatova Sherzod Kariev Dr. Sriram Chellappan

翻译员、注释者和数据集贡献者(按字母顺序)

Abilxayr Zholdybai Aigiz Kunafin Akylbek Khamitov Alperen Cantez Aydos Muxammadiyarov Doniyorbek Rafikjonov Erkinbek Vokhabov Ipek Baris Iskander Shakirov Madina Zokirjonova Mohiyaxon Uzoqova Mukhammadbektosh Khaydarov Nurlan Maharramli Petr Popov Rasul Karimov Sariya Kagarmanova Ziyodabonu Qobiljon qizi

行业支持者

Google Cloud Khan Academy Oʻzbek The Foundation for the Preservation and Development of the Bashkir Language

感谢 @mirzakhalov 提供此数据集。