数据集:

adithya7/xlel_wd

计算机处理:

multilingual

大小:

1M<n<10M

语言创建人:

found

批注创建人:

found

源数据集:

original

预印本库:

arxiv:2204.06535

许可:

cc-by-4.0
英文

XLEL-WD 数据集卡片

数据集概述

XLEL-WD 是一个多语言事件链接数据集。该数据集存储了维基百科/维基新闻文章中对维基数据事件项的提及引用。

对于维基数据事件项的描述是从相应的维基百科文章中收集的。从 adithya7/xlel_wd_dictionary 中下载事件词典。

支持的任务和排行榜

此数据集可用于事件链接任务。任务有两个变体,即多语言链接和跨语言链接。

  • 多语言链接:提及和事件描述以相同语言提供。
  • 跨语言链接:事件描述仅提供英文版本。

语言

此数据集包含来自44种语言的文本。以下列出了这些语言的语言名称及其ISO 639-1代码。有关每种语言的数据集分布的详细信息,请参阅原始论文。

Language Code Language Code Language Code Language Code
Afrikaans af Arabic ar Belarusian be Bulgarian bg
Bengali bn Catalan ca Czech cs Danish da
German de Greek el English en Spanish es
Persian fa Finnish fi French fr Hebrew he
Hindi hi Hungarian hu Indonesian id Italian it
Japanese ja Korean ko Malayalam ml Marathi mr
Malay ms Dutch nl Norwegian no Polish pl
Portuguese pt Romanian ro Russian ru Sinhala si
Slovak sk Slovene sl Serbian sr Swedish sv
Swahili sw Tamil ta Telugu te Thai th
Turkish tr Ukrainian uk Vietnamese vi Chinese zh

数据集结构

数据实例

train.jsonl,dev.jsonl 和 test.jsonl 文件中的每个实例都遵循以下模板。

{
    "context_left": "Minibaev's first major international medal came in the men's synchronized 10 metre platform event at the ",
    "mention": "2010 European Championships",
    "context_right": ".",
    "context_lang": "en",
    "label_id": "830917",
}

数据字段

Field Meaning
mention text span of the mention
context_left left paragraph context from the document
context_right right paragraph context from the document
context_lang language of the context (and mention)
context_title document title of the mention (only Wikinews subset)
context_date document publication date of the mention (only Wikinews subset)
label_id Wikidata label ID for the event. E.g. 830917 refers to Q830917 from Wikidata.

数据拆分

基于维基百科的语料库有三种拆分。这是一个零样本评估设置。

Train Dev Test Total
Events 8653 1090 1204 10947
Event Sequences 6758 844 846 8448
Mentions 1.44M 165K 190K 1.8M
Languages 44 44 44 44

基于维基新闻的评估集有两个变体,一个用于跨领域评估,另一个用于零样本评估。

(Cross-domain) Test (Zero-shot) Test
Events 802 149
Mentions 2562 437
Languages 27 21

数据集创建

策划原理

此数据集有助于解决事件链接任务。已经广泛研究了实体的知识库链接,但是不清楚是否可以将相同的方法应用于从知识库中链接提及到事件。我们使用维基数据作为知识库,因为它允许链接多语言维基百科和维基新闻文章的提及。

源数据

初始数据收集和规范化

首先,我们利用维基数据中的时空属性来识别事件项。其次,我们找到每个维基数据事件项对应的多语言维基百科页面。然后,我们从多语言维基百科和维基新闻文章中提取到这些事件项的超链接。

谁是源语言的生产者?

XLEL-WD 中的文档是由各个语言的维基百科和维基新闻参与者编写的。

注释

注释过程

此数据集最初是从维基百科、维基新闻和维基数据中自动收集的。已进行后期处理以提高数据质量。

谁是注释者?

XLEL-WD 中的注释(从维基百科/维基新闻到维基数据的超链接)是由原始维基贡献者添加的。

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

XLEL-WD v1.0.0 主要针对维基数据中的事件名词。它不包括与维基数据中的其他事件项(如疾病爆发(Q3241045)、军事进攻(Q2001676)和战争(Q198))的链接。

其他信息

数据集策划者

数据集由 Adithya Pratapa、Rishubh Gupta 和 Teruko Mitamura 策划。收集数据集的代码可在 Github:xlel-wd 中获得。

许可信息

XLEL-WD 数据集基于 CC-BY-4.0 license 发布。

引用信息

@article{pratapa-etal-2022-multilingual,
  title = {Multilingual Event Linking to Wikidata},
  author = {Pratapa, Adithya and Gupta, Rishubh and Mitamura, Teruko},
  publisher = {arXiv},
  year = {2022},
  url = {https://arxiv.org/abs/2204.06535},
}

贡献

感谢 @adithya7 添加了这个数据集。