数据集:
ted_hrlr
任务:
计算机处理:
translation大小:
1M<n<10M语言创建人:
expert-generated批注创建人:
crowdsourced源数据集:
extended|ted_talks_iwslt许可:
从TED演讲文本衍生的数据集,用于比较其中一个是高资源语言对,另一个是低资源语言对的相似语言对。
'train'的一个示例如下所示。
{
"translation": {
"az": "zəhmət olmasa , sizə xitab edən sözlər eşidəndə əlinizi qaldırın .",
"en": "please raise your hand if something applies to you ."
}
}
aztr_to_en 'train'的一个示例如下所示。
{
"translation": {
"az_tr": "zəhmət olmasa , sizə xitab edən sözlər eşidəndə əlinizi qaldırın .",
"en": "please raise your hand if something applies to you ."
}
}
be_to_en 'train'的一个示例如下所示。
{
"translation": {
"be": "zəhmət olmasa , sizə xitab edən sözlər eşidəndə əlinizi qaldırın .",
"en": "please raise your hand if something applies to you ."
}
}
beru_to_en 'validation'的一个示例如下所示。
This example was too long and was cropped:
{
"translation": "{\"be_ru\": \"11 yaşımdaydım . səhərin birində , evimizdəki sevinc səslərinə oyandığım indiki kimi yadımdadır .\", \"en\": \"when i was..."
}
es_to_pt 'validation'的一个示例如下所示。
This example was too long and was cropped:
{
"translation": "{\"es\": \"11 yaşımdaydım . səhərin birində , evimizdəki sevinc səslərinə oyandığım indiki kimi yadımdadır .\", \"pt\": \"when i was 11..."
}
所有拆分的数据字段相同。
az_to_en| name | train | validation | test |
|---|---|---|---|
| az_to_en | 5947 | 672 | 904 |
| aztr_to_en | 188397 | 672 | 904 |
| be_to_en | 4510 | 249 | 665 |
| beru_to_en | 212615 | 249 | 665 |
| es_to_pt | 44939 | 1017 | 1764 |
@inproceedings{qi-etal-2018-pre,
title = "When and Why Are Pre-Trained Word Embeddings Useful for Neural Machine Translation?",
author = "Qi, Ye and
Sachan, Devendra and
Felix, Matthieu and
Padmanabhan, Sarguna and
Neubig, Graham",
booktitle = "Proceedings of the 2018 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers)",
month = jun,
year = "2018",
address = "New Orleans, Louisiana",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N18-2084",
doi = "10.18653/v1/N18-2084",
pages = "529--535",
}
感谢 @thomwolf , @lewtun , @patrickvonplaten 添加此数据集。