数据集:
opus_ubuntu
这些是由 Ubuntu 社区捐赠的 Ubuntu 软件包消息的翻译。
要加载不在配置中的语言对,您只需要将语言代码指定为 pairs.You 可以在数据集描述的主页部分找到有效的语言对: http://opus.nlpl.eu/Ubuntu.php 例如:
dataset = load_dataset("opus_ubuntu", lang1="it", lang2="pl")
[需要更多信息]
[需要更多信息]
示例实例:
{
'id': '0',
'translation': {
'it': 'Comprende Gmail, Google Docs, Google+, YouTube e Picasa',
'pl': 'Zawiera Gmail, Google Docs, Google+, YouTube oraz Picasa'
}
}
每个实例有两个字段:
每个子集只包含一个训练集。我们为某些语言对提供了示例数量:
| train | |
|---|---|
| as-bs | 8583 |
| az-cs | 293 |
| bg-de | 184 |
| br-es_PR | 125 |
| bn-ga | 7324 |
| br-hi | 15551 |
| br-la | 527 |
| bs-szl | 646 |
| br-uz | 1416 |
| br-yi | 2799 |
[需要更多信息]
[需要更多信息]
初始数据收集和规范化[需要更多信息]
源语言制作者是谁?[需要更多信息]
[需要更多信息]
注释过程[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
BSD "修订版"许可证(请参阅( https://help.launchpad.net/Legal#Translations_copyright)[https://help.launchpad.net/Legal#Translations_copyright] )
@InProceedings{TIEDEMANN12.463,
author = {J{\"o}rg Tiedemann},
title = {Parallel Data, Tools and Interfaces in OPUS},
booktitle = {Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)},
year = {2012},
month = {may},
date = {23-25},
address = {Istanbul, Turkey},
editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Mehmet Ugur Dogan and Bente Maegaard and Joseph Mariani and Jan Odijk and Stelios Piperidis},
publisher = {European Language Resources Association (ELRA)},
isbn = {978-2-9517408-7-7},
language = {english}
}
感谢 @rkc007 添加了这个数据集。