数据集:

opus_gnome

任务:

翻译

语言:

计算机处理:

multilingual

大小:

10K<n<100K 1K<n<10K n<1K

语言创建人:

found

批注创建人:

found

源数据集:

original

许可:

license:unknown

数据集介绍文件清单

英文

Opus Gnome 数据集卡片

数据集摘要

要加载一个不在配置中的语言对，你只需要指定语言代码作为pairs。您可以在数据库描述的首页部分找到有效的语言对：

dataset = load_dataset("opus_gnome", lang1="it", lang2="pl")

支持的任务和排行榜

[需要更多信息]

语言

[需要更多信息]

数据集结构

数据实例

{
  'id': '0', 
  'translation': {
    'ar': 'إعداد سياسة القفل',
    'bal': 'تنظیم کتن سیاست کبل'
  }
}

数据字段

每个实例有两个字段：

id : 示例的id
translation : 包含两种语言翻译文本的字典

数据划分

每个子集只包含一个训练集。我们提供某些语言对的示例数量：

train
ar-bal	60
bg-csb	10
ca-en_GB	7982
cs-eo	73
de-ha	216
cs-tk	18686
da-vi	149
en_GB-my	28232
el-sk	150
de-tt	2169

数据集创建

策划理由

[需要更多信息]

源数据

[需要更多信息]

初始数据收集和标准化

[需要更多信息]

源语言制作者是谁？

[需要更多信息]

注释

[需要更多信息]

注释过程

[需要更多信息]

注释者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

数据使用的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@InProceedings{TIEDEMANN12.463, author = {J{"o}rg Tiedemann}, title = {Parallel Data, Tools and Interfaces in OPUS}, booktitle = {Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)}, year = {2012}, month = {may}, date = {23-25}, address = {Istanbul, Turkey}, editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Mehmet Ugur Dogan and Bente Maegaard and Joseph Mariani and Jan Odijk and Stelios Piperidis}, publisher = {European Language Resources Association (ELRA)}, isbn = {978-2-9517408-7-7}, language = {english} }

贡献

感谢 @rkc007 添加此数据集。

作者:

佚名

数据集大小:

30.45 KB