数据集:

polyglot_ner

任务:

标记分类

子任务:

named-entity-recognition

语言:

计算机处理:

multilingual

大小:

size_categories:unknown

语言创建人:

found

批注创建人:

machine-generated

源数据集:

original

预印本库:

arxiv:1410.3791

许可:

license:unknown

数据集介绍文件清单

英文

Polyglot-NER 数据集卡片

数据集摘要

Polyglot-NER 是从维基百科和Freebase自动生成的用于命名实体识别任务的训练数据集。该数据集包含了我们拥有的40种语言的基本维基百科训练数据（包括共指解析）。生成这些数据集的详细过程在论文的第3节（ https://arxiv.org/abs/1410.3791 ）中有说明。每个配置文件都包含与不同语言相对应的数据。例如，"es"只包含西班牙语的示例。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

下载的数据集文件大小：1.11 GB
生成的数据集大小：183.55 MB
总磁盘使用量：1.29 GB

"train"的示例如下所示。

This example was too long and was cropped:

{
    "id": "2",
    "lang": "ar",
    "ner": ["O", "O", "O", "O", "O", "O", "O", "O", "LOC", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "PER", "PER", "PER", "PER", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O"],
    "words": "[\"وفي\", \"مرحلة\", \"موالية\", \"أنشأت\", \"قبيلة\", \"مكناسة\", \"الزناتية\", \"مكناسة\", \"تازة\", \",\", \"وأقام\", \"بها\", \"المرابطون\", \"قلعة\", \"..."
}

下载的数据集文件大小：1.11 GB
生成的数据集大小：190.51 MB
总磁盘使用量：1.30 GB

"train"的示例如下所示。

This example was too long and was cropped:

{
    "id": "1",
    "lang": "bg",
    "ner": ["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O"],
    "words": "[\"Дефиниция\", \"Наименованията\", \"\\\"\", \"книжовен\", \"\\\"/\\\"\", \"литературен\", \"\\\"\", \"език\", \"на\", \"български\", \"за\", \"тази\", \"кодифи..."
}

下载的数据集文件大小：1.11 GB
生成的数据集大小：143.75 MB
总磁盘使用量：1.25 GB

"train"的示例如下所示。

This example was too long and was cropped:

{
    "id": "2",
    "lang": "ca",
    "ner": "[\"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O\", \"O...",
    "words": "[\"Com\", \"a\", \"compositor\", \"deixà\", \"un\", \"immens\", \"llegat\", \"que\", \"inclou\", \"8\", \"simfonies\", \"(\", \"1822\", \"),\", \"diverses\", ..."
}

combined

下载的数据集文件大小：1.11 GB
生成的数据集大小：6.29 GB
总磁盘使用量：7.39 GB

"train"的示例如下所示。

This example was too long and was cropped:

{
    "id": "18",
    "lang": "es",
    "ner": ["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O"],
    "words": "[\"Los\", \"cambios\", \"en\", \"la\", \"energía\", \"libre\", \"de\", \"Gibbs\", \"\\\\\", \"Delta\", \"G\", \"nos\", \"dan\", \"una\", \"cuantificación\", \"de..."
}

下载的数据集文件大小：1.11 GB
生成的数据集大小：156.79 MB
总磁盘使用量：1.26 GB

"train"的示例如下所示。

This example was too long and was cropped:

{
    "id": "3",
    "lang": "cs",
    "ner": ["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O"],
    "words": "[\"Historie\", \"Symfonická\", \"forma\", \"se\", \"rozvinula\", \"se\", \"především\", \"v\", \"období\", \"klasicismu\", \"a\", \"romantismu\", \",\", \"..."
}

数据字段

所有拆分的数据字段都相同。

id: 字符串特征
lang: 字符串特征
words: 字符串特征列表
ner: 字符串特征列表

id: 字符串特征
lang: 字符串特征
words: 字符串特征列表
ner: 字符串特征列表

id: 字符串特征
lang: 字符串特征
words: 字符串特征列表
ner: 字符串特征列表

combined

id: 字符串特征
lang: 字符串特征
words: 字符串特征列表
ner: 字符串特征列表

id: 字符串特征
lang: 字符串特征
words: 字符串特征列表
ner: 字符串特征列表

数据拆分

name	train
ar	339109
bg	559694
ca	372665
combined	21070925
cs	564462

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和标准化

More Information Needed

谁是源语言的生产者？

More Information Needed

标注

标注过程

More Information Needed

谁做了标注？

More Information Needed

个人敏感信息

More Information Needed

使用数据的注意事项

附加信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@article{polyglotner,
         author = {Al-Rfou, Rami and Kulkarni, Vivek and Perozzi, Bryan and Skiena, Steven},
         title = {{Polyglot-NER}: Massive Multilingual Named Entity Recognition},
         journal = {{Proceedings of the 2015 {SIAM} International Conference on Data Mining, Vancouver, British Columbia, Canada, April 30- May 2, 2015}},
         month     = {April},
         year      = {2015},
         publisher = {SIAM},
}

贡献者

感谢 @joeddav 添加了这个数据集。

作者:

佚名

数据集大小:

113.08 KB

Polyglot-NER 数据集卡片

数据集摘要

支持的任务和排行榜

语言

数据集结构

数据实例

数据字段

数据拆分

数据集创建

策划理由

源数据

标注

个人敏感信息

使用数据的注意事项

数据的社会影响

偏见讨论

其他已知限制

附加信息

数据集策划者

许可信息

引用信息

贡献者