数据集:

polyglot_ner

计算机处理:

multilingual

语言创建人:

found

批注创建人:

machine-generated

源数据集:

original

预印本库:

arxiv:1410.3791
英文

Polyglot-NER 数据集卡片

数据集摘要

Polyglot-NER 是从维基百科和Freebase自动生成的用于命名实体识别任务的训练数据集。该数据集包含了我们拥有的40种语言的基本维基百科训练数据(包括共指解析)。生成这些数据集的详细过程在论文的第3节( https://arxiv.org/abs/1410.3791 )中有说明。每个配置文件都包含与不同语言相对应的数据。例如,"es"只包含西班牙语的示例。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

ar
  • 下载的数据集文件大小:1.11 GB
  • 生成的数据集大小:183.55 MB
  • 总磁盘使用量:1.29 GB

"train"的示例如下所示。

This example was too long and was cropped:

{
    "id": "2",
    "lang": "ar",
    "ner": ["O", "O", "O", "O", "O", "O", "O", "O", "LOC", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "PER", "PER", "PER", "PER", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O"],
    "words": "[\"وفي\", \"مرحلة\", \"موالية\", \"أنشأت\", \"قبيلة\", \"مكناسة\", \"الزناتية\", \"مكناسة\", \"تازة\", \",\", \"وأقام\", \"بها\", \"المرابطون\", \"قلعة\", \"..."
}
bg
  • 下载的数据集文件大小:1.11 GB
  • 生成的数据集大小:190.51 MB
  • 总磁盘使用量:1.30 GB

"train"的示例如下所示。

This example was too long and was cropped:

{
    "id": "1",
    "lang": "bg",
    "ner": ["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O"],
    "words": "[\"Дефиниция\", \"Наименованията\", \"\\\"\", \"книжовен\", \"\\\"/\\\"\", \"литературен\", \"\\\"\", \"език\", \"на\", \"български\", \"за\", \"тази\", \"кодифи..."
}
ca
  • 下载的数据集文件大小:1.11 GB
  • 生成的数据集大小:143.75 MB
  • 总磁盘使用量:1.25 GB

"train"的示例如下所示。

This example was too long and was cropped:

{
    "id": "2",
    "lang": "ca",
    "ner": "[\"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O...",
    "words": "[\"Com\", \"a\", \"compositor\", \"deixà\", \"un\", \"immens\", \"llegat\", \"que\", \"inclou\", \"8\", \"simfonies\", \"(\", \"1822\", \"),\", \"diverses\", ..."
}
combined
  • 下载的数据集文件大小:1.11 GB
  • 生成的数据集大小:6.29 GB
  • 总磁盘使用量:7.39 GB

"train"的示例如下所示。

This example was too long and was cropped:

{
    "id": "18",
    "lang": "es",
    "ner": ["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O"],
    "words": "[\"Los\", \"cambios\", \"en\", \"la\", \"energía\", \"libre\", \"de\", \"Gibbs\", \"\\\\\", \"Delta\", \"G\", \"nos\", \"dan\", \"una\", \"cuantificación\", \"de..."
}
cs
  • 下载的数据集文件大小:1.11 GB
  • 生成的数据集大小:156.79 MB
  • 总磁盘使用量:1.26 GB

"train"的示例如下所示。

This example was too long and was cropped:

{
    "id": "3",
    "lang": "cs",
    "ner": ["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O"],
    "words": "[\"Historie\", \"Symfonická\", \"forma\", \"se\", \"rozvinula\", \"se\", \"především\", \"v\", \"období\", \"klasicismu\", \"a\", \"romantismu\", \",\", \"..."
}

数据字段

所有拆分的数据字段都相同。

ar
  • id: 字符串特征
  • lang: 字符串特征
  • words: 字符串特征列表
  • ner: 字符串特征列表
bg
  • id: 字符串特征
  • lang: 字符串特征
  • words: 字符串特征列表
  • ner: 字符串特征列表
ca
  • id: 字符串特征
  • lang: 字符串特征
  • words: 字符串特征列表
  • ner: 字符串特征列表
combined
  • id: 字符串特征
  • lang: 字符串特征
  • words: 字符串特征列表
  • ner: 字符串特征列表
cs
  • id: 字符串特征
  • lang: 字符串特征
  • words: 字符串特征列表
  • ner: 字符串特征列表

数据拆分

name train
ar 339109
bg 559694
ca 372665
combined 21070925
cs 564462

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和标准化

More Information Needed

谁是源语言的生产者?

More Information Needed

标注

标注过程

More Information Needed

谁做了标注?

More Information Needed

个人敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@article{polyglotner,
         author = {Al-Rfou, Rami and Kulkarni, Vivek and Perozzi, Bryan and Skiena, Steven},
         title = {{Polyglot-NER}: Massive Multilingual Named Entity Recognition},
         journal = {{Proceedings of the 2015 {SIAM} International Conference on Data Mining, Vancouver, British Columbia, Canada, April 30- May 2, 2015}},
         month     = {April},
         year      = {2015},
         publisher = {SIAM},
}

贡献者

感谢 @joeddav 添加了这个数据集。