数据集:
opus_gnome
要加载一个不在配置中的语言对,你只需要指定语言代码作为pairs。您可以在数据库描述的首页部分找到有效的语言对:
dataset = load_dataset("opus_gnome", lang1="it", lang2="pl")
[需要更多信息]
[需要更多信息]
{
'id': '0',
'translation': {
'ar': 'إعداد سياسة القفل',
'bal': 'تنظیم کتن سیاست کبل'
}
}
每个实例有两个字段:
每个子集只包含一个训练集。我们提供某些语言对的示例数量:
| train | |
|---|---|
| ar-bal | 60 |
| bg-csb | 10 |
| ca-en_GB | 7982 |
| cs-eo | 73 |
| de-ha | 216 |
| cs-tk | 18686 |
| da-vi | 149 |
| en_GB-my | 28232 |
| el-sk | 150 |
| de-tt | 2169 |
[需要更多信息]
[需要更多信息]
初始数据收集和标准化[需要更多信息]
源语言制作者是谁?[需要更多信息]
[需要更多信息]
注释过程[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@InProceedings{TIEDEMANN12.463, author = {J{"o}rg Tiedemann}, title = {Parallel Data, Tools and Interfaces in OPUS}, booktitle = {Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)}, year = {2012}, month = {may}, date = {23-25}, address = {Istanbul, Turkey}, editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Mehmet Ugur Dogan and Bente Maegaard and Joseph Mariani and Jan Odijk and Stelios Piperidis}, publisher = {European Language Resources Association (ELRA)}, isbn = {978-2-9517408-7-7}, language = {english} }
感谢 @rkc007 添加此数据集。