数据集:
opus_dgt
由欧盟联合研究中心(JRC)翻译总局(DGT)提供的翻译记忆库收集: https://ec.europa.eu/jrc/en/language-technologies/dgt-translation-memory
该数据集包含25种语言和299个双语对。
要加载不属于配置文件的语言对,您只需要指定语言代码,例如
dataset = load_dataset("opus_dgt", lang1="it", lang2="pl")
您可以在数据集描述的主页部分找到有效的语言对: http://opus.nlpl.eu/DGT.php
[需要更多信息]
数据集中的语言包括:
{
'id': '0',
'translation': {
"bg": "Протокол за поправка на Конвенцията относно компетентността, признаването и изпълнението на съдебни решения по граждански и търговски дела, подписана в Лугано на 30 октомври 2007 г.",
"ga": "Miontuairisc cheartaitheach maidir le Coinbhinsiún ar dhlínse agus ar aithint agus ar fhorghníomhú breithiúnas in ábhair shibhialta agus tráchtála, a siníodh in Lugano an 30 Deireadh Fómhair 2007"
}
}
数据集包含一个训练集拆分。
[需要更多信息]
[需要更多信息]
初始数据收集和规范化[需要更多信息]
源语言制造商是谁?[需要更多信息]
[需要更多信息]
注释过程[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@InProceedings{TIEDEMANN12.463,
author = {J{\"o}rg Tiedemann},
title = {Parallel Data, Tools and Interfaces in OPUS},
booktitle = {Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)},
year = {2012},
month = {may},
date = {23-25},
address = {Istanbul, Turkey},
editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Mehmet Ugur Dogan and Bente Maegaard and Joseph Mariani and Jan Odijk and Stelios Piperidis},
publisher = {European Language Resources Association (ELRA)},
isbn = {978-2-9517408-7-7},
language = {english}
}
感谢 @rkc007 添加了这个数据集。