数据集:

multi_eurlex

计算机处理:

multilingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

found

源数据集:

original

预印本库:

arxiv:2109.00904
英文

"MultiEURLEX"数据集卡片

数据集摘要

文档

MultiEURLEX包含23种官方欧盟语言的65,000项欧盟法律。每个欧盟法律都由欧盟出版社使用EUROVOC概念(标签)进行了注释。每个EUROVOC标签ID与标签描述符相关联,例如,[60,农产品],[6006,植物产品],[1115,水果]。这些描述符也提供在23种语言中。Chalkidis等人(2019年)发表了这个数据集的单语(英语)版本,称为EUR-LEX,包含57,000个欧盟法律,并带有原始分配的金标签。

多层次标注

EUROVOC拥有八个级别的概念。每个文档都被分配一个或多个概念(标签)。如果一个文档被分配了一个概念,通常不会将该概念的祖先和后代分配给同一个文档。这些文档最初是在第3至第8级的概念上进行注释的。我们通过将每个分配的概念替换为其来自第1、2或3级的祖先而为每个文档创建了三组替代标签集。因此,我们为每个文档提供四组金标签,分别对应于层次结构的前三个级别,以及原始稀疏标签分配。由于许多文档具有来自第三级的金概念,所以无法独立使用第4至第8级标签,如果丢弃第3级,则会造成许多文档的错误标注。

数据划分和概念漂移

MultiEURLEX按时间顺序分为训练集(55,000,1958-2010年)、开发集(5,000,2010-2012年)和测试集(5,000,2012-2016年),使用英语文档进行划分。测试集中包含23种语言的相同5,000个文档。开发集还包含23种语言的相同5,000个文档,但不包括克罗地亚语。克罗地亚是最新的欧盟成员国(2013年),较旧的法律正在逐渐翻译。对于七个最早加入欧盟的国家的官方语言,均提供相同的55,000个训练文档;而对于其他语言,只提供55,000个训练文档的子集。与EUR-LEX(Chalkidis等人,2019年)相比,MultiEURLEX不仅更大(多了8,000个文档)和多语言,而且更具挑战性,因为时间顺序划分导致训练集、开发集和测试集之间存在真实世界的概念漂移,即标签分布和措辞的差异,代表了一个现实的时间泛化问题(Huang等人,2019年;Lazaridou等人,2021年)。最近,Søgaard等人(2021年)表明这种设置更加现实,因为它没有高估实际性能,与随机划分相反(Gorman和Bedrick,2019年)。

支持的任务和领域

与EUR-LEX(Chalkidis等人,2019年)类似,MultiEURLEX可用于法律主题分类,这是一个多标签分类任务,其中需要分配反映其主题的概念(在我们的情况下,来自EUROVOC的概念)给法律文件。然而,与EUR-LEX不同,MultiEURLEX支持来自三个不同层次的标签(EUROVOC级别)。更重要的是,除了单语言(一对一)实验外,它还可用于研究跨语言转移场景,包括一对多(在一种语言中训练并在其他没有训练数据的语言中使用)和多对一或多对多(在多种语言中联合训练,并在一个或多个其他语言中使用)的情况。

该数据集尚未成为一个已建立的基准。

语言

欧盟有24种官方语言。当新成员加入欧盟时,官方语言的集合通常会扩展,除非该语言已经包含在内。MultiEURLEX涵盖了来自七个语言系(日耳曼语、罗曼语、斯拉夫语、乌拉尔语、波罗的语、闪米特语、希腊语)的23种语言。所有官方语言的欧盟法律均以所有官方语言出版,除了基于资源原因(详见 https://europa.eu/european-union/about-eu/eu-languages_en )的爱尔兰语。这种广泛覆盖使得MultiEURLEX成为一个有价值的跨语言转移测试平台。除了保加利亚语(西里尔字母)和希腊语外,所有语言都使用拉丁字母。欧盟国家还使用其他几种语言。欧盟国家还有超过60种其他土著区域或少数民族语言,例如巴斯克语、加泰罗尼亚语、弗里斯兰语、萨米语和意第绪语等,这些语言由约4000万人使用,但这些附加语言不被认为是官方语言(欧盟方面而言) ,欧盟法律不会被翻译成这些语言。

数据集结构

数据实例

数据集的多语言使用

当数据集在多语言环境中使用时,选择'all_languages'标志:

from datasets import load_dataset
dataset = load_dataset('multi_eurlex', 'all_languages')
{
  "celex_id": "31979D0509",
  "text": {"en": "COUNCIL DECISION  of 24 May 1979  on financial aid from the Community for the eradication of African swine fever in Spain  (79/509/EEC)\nTHE COUNCIL OF THE EUROPEAN COMMUNITIES\nHaving regard to the Treaty establishing the European Economic Community, and in particular Article 43 thereof,\nHaving regard to the proposal from the Commission (1),\nHaving regard to the opinion of the European Parliament (2),\nWhereas the Community should take all appropriate measures to protect itself against the appearance of African swine fever on its territory;\nWhereas to this end the Community has undertaken, and continues to undertake, action designed to contain outbreaks of this type of disease far from its frontiers by helping countries affected to reinforce their preventive measures ; whereas for this purpose Community subsidies have already been granted to Spain;\nWhereas these measures have unquestionably made an effective contribution to the protection of Community livestock, especially through the creation and maintenance of a buffer zone north of the river Ebro;\nWhereas, however, in the opinion of the Spanish authorities themselves, the measures so far implemented must be reinforced if the fundamental objective of eradicating the disease from the entire country is to be achieved;\nWhereas the Spanish authorities have asked the Community to contribute to the expenses necessary for the efficient implementation of a total eradication programme;\nWhereas a favourable response should be given to this request by granting aid to Spain, having regard to the undertaking given by that country to protect the Community against African swine fever and to eliminate completely this disease by the end of a five-year eradication plan;\nWhereas this eradication plan must include certain measures which guarantee the effectiveness of the action taken, and it must be possible to adapt these measures to developments in the situation by means of a procedure establishing close cooperation between the Member States and the Commission;\nWhereas it is necessary to keep the Member States regularly informed as to the progress of the action undertaken,",
           "es": "DECISIÓN DEL CONSEJO de 24 de mayo de 1979 sobre ayuda financiera de la Comunidad para la erradicación de la peste porcina africana en España (79/509/CEE)\nEL CONSEJO DE LAS COMUNIDADES EUROPEAS\nVeniendo en cuenta el Tratado constitutivo de la Comunidad Económica Europea y, en particular, Su artículo 43,\n Vista la propuesta de la Comisión (1),\n Visto el dictamen del Parlamento Europeo (2),\nConsiderando que la Comunidad debe tomar todas las medidas adecuadas para protegerse contra la aparición de la peste porcina africana en su territorio;\nConsiderando a tal fin que la Comunidad ha emprendido y sigue llevando a cabo acciones destinadas a contener los brotes de este tipo de enfermedades lejos de sus fronteras, ayudando a los países afectados a reforzar sus medidas preventivas; que a tal efecto ya se han concedido a España subvenciones comunitarias;\nQue estas medidas han contribuido sin duda alguna a la protección de la ganadería comunitaria, especialmente mediante la creación y mantenimiento de una zona tampón al norte del río Ebro;\nConsiderando, no obstante, , a juicio de las propias autoridades españolas, las medidas implementadas hasta ahora deben reforzarse si se quiere alcanzar el objetivo fundamental de erradicar la enfermedad en todo el país;\nConsiderando que las autoridades españolas han pedido a la Comunidad que contribuya a los gastos necesarios para la ejecución eficaz de un programa de erradicación total;\nConsiderando que conviene dar una respuesta favorable a esta solicitud concediendo una ayuda a España, habida cuenta del compromiso asumido por dicho país de proteger a la Comunidad contra la peste porcina africana y de eliminar completamente esta enfermedad al final de un plan de erradicación de cinco años;\nMientras que este plan de erradicación debe incluir e determinadas medidas que garanticen la eficacia de las acciones emprendidas, debiendo ser posible adaptar estas medidas a la evolución de la situación mediante un procedimiento que establezca una estrecha cooperación entre los Estados miembros y la Comisión;\nConsiderando que es necesario mantener el Los Estados miembros informados periódicamente sobre el progreso de las acciones emprendidas.",
           "de": "...",
           "bg": "..."
  },
  "labels": [
    1,
    13,
    47
  ]
}

数据集的单语言使用

当数据集在单语言环境中使用时,选择23个支持的语言的ISO语言代码。例如:

from datasets import load_dataset
dataset = load_dataset('multi_eurlex', 'en')
{
  "celex_id": "31979D0509",
  "text": "COUNCIL DECISION  of 24 May 1979  on financial aid from the Community for the eradication of African swine fever in Spain  (79/509/EEC)\nTHE COUNCIL OF THE EUROPEAN COMMUNITIES\nHaving regard to the Treaty establishing the European Economic Community, and in particular Article 43 thereof,\nHaving regard to the proposal from the Commission (1),\nHaving regard to the opinion of the European Parliament (2),\nWhereas the Community should take all appropriate measures to protect itself against the appearance of African swine fever on its territory;\nWhereas to this end the Community has undertaken, and continues to undertake, action designed to contain outbreaks of this type of disease far from its frontiers by helping countries affected to reinforce their preventive measures ; whereas for this purpose Community subsidies have already been granted to Spain;\nWhereas these measures have unquestionably made an effective contribution to the protection of Community livestock, especially through the creation and maintenance of a buffer zone north of the river Ebro;\nWhereas, however, in the opinion of the Spanish authorities themselves, the measures so far implemented must be reinforced if the fundamental objective of eradicating the disease from the entire country is to be achieved;\nWhereas the Spanish authorities have asked the Community to contribute to the expenses necessary for the efficient implementation of a total eradication programme;\nWhereas a favourable response should be given to this request by granting aid to Spain, having regard to the undertaking given by that country to protect the Community against African swine fever and to eliminate completely this disease by the end of a five-year eradication plan;\nWhereas this eradication plan must include certain measures which guarantee the effectiveness of the action taken, and it must be possible to adapt these measures to developments in the situation by means of a procedure establishing close cooperation between the Member States and the Commission;\nWhereas it is necessary to keep the Member States regularly informed as to the progress of the action undertaken,",
  "labels": [
    1,
    13,
    47
  ]
}

数据字段

数据集的多语言使用

为文档(train、dev、test)提供以下数据字段:

celex_id:(str)文档的官方ID。 CELEX号是Eur-Lex和CELLAR中所有出版物的唯一标识符。 text:(dict[str])一个包含23种语言的字典,每种语言对应一个文档的全部内容。 labels:(List[int])相关的EUROVOC概念(标签)。

数据集的单语言使用

为文档(train、dev、test)提供以下数据字段:

celex_id:(str)文档的官方ID。 CELEX号是Eur-Lex和CELLAR中所有出版物的唯一标识符。 text:(str)跨语言的文档的全部内容。 labels:(List[int])相关的EUROVOC概念(标签)。

如果您想使用EUROVOC概念的描述符,类似于 Chalkidis et al. (2020) ,请下载相关的JSON文件 here 。然后您可以加载并使用它:

import json
from datasets import load_dataset

# Load the English part of the dataset
dataset = load_dataset('multi_eurlex', 'en', split='train')

# Load (label_id, descriptor) mapping 
with open('./eurovoc_descriptors.json') as jsonl_file:
    eurovoc_concepts =  json.load(jsonl_file)

# Get feature map info
classlabel = dataset.features["labels"].feature

# Retrieve IDs and descriptors from dataset
for sample in dataset:
  print(f'DOCUMENT: {sample["celex_id"]}')
  # DOCUMENT: 32006D0213
  for label_id in sample['labels']:
    print(f'LABEL: id:{label_id}, eurovoc_id: {classlabel.int2str(label_id)}, \
            eurovoc_desc:{eurovoc_concepts[classlabel.int2str(label_id)]}')
    # LABEL: id: 1, eurovoc_id: '100160', eurovoc_desc: 'industry'

数据划分

Language ISO code Member Countries where official EU Speakers [1] Number of Documents [2]
English en United Kingdom (1973-2020), Ireland (1973), Malta (2004) 13/ 51% 55,000 / 5,000 / 5,000
German de Germany (1958), Belgium (1958), Luxembourg (1958) 16/32% 55,000 / 5,000 / 5,000
French fr France (1958), Belgium(1958), Luxembourg (1958) 12/26% 55,000 / 5,000 / 5,000
Italian it Italy (1958) 13/16% 55,000 / 5,000 / 5,000
Spanish es Spain (1986) 8/15% 52,785 / 5,000 / 5,000
Polish pl Poland (2004) 8/9% 23,197 / 5,000 / 5,000
Romanian ro Romania (2007) 5/5% 15,921 / 5,000 / 5,000
Dutch nl Netherlands (1958), Belgium (1958) 4/5% 55,000 / 5,000 / 5,000
Greek el Greece (1981), Cyprus (2008) 3/4% 55,000 / 5,000 / 5,000
Hungarian hu Hungary (2004) 3/3% 22,664 / 5,000 / 5,000
Portuguese pt Portugal (1986) 2/3% 23,188 / 5,000 / 5,000
Czech cs Czech Republic (2004) 2/3% 23,187 / 5,000 / 5,000
Swedish sv Sweden (1995) 2/3% 42,490 / 5,000 / 5,000
Bulgarian bg Bulgaria (2007) 2/2% 15,986 / 5,000 / 5,000
Danish da Denmark (1973) 1/1% 55,000 / 5,000 / 5,000
Finnish fi Finland (1995) 1/1% 42,497 / 5,000 / 5,000
Slovak sk Slovakia (2004) 1/1% 15,986 / 5,000 / 5,000
Lithuanian lt Lithuania (2004) 1/1% 23,188 / 5,000 / 5,000
Croatian hr Croatia (2013) 1/1% 7,944 / 2,500 / 5,000
Slovene sl Slovenia (2004) <1/<1% 23,184 / 5,000 / 5,000
Estonian et Estonia (2004) <1/<1% 23,126 / 5,000 / 5,000
Latvian lv Latvia (2004) <1/<1% 23,188 / 5,000 / 5,000
Maltese mt Malta (2004) <1/<1% 17,521 / 5,000 / 5,000

[1] 母语和欧盟总人口百分比(%)[2] 训练/开发/测试划分

数据集创建

策划理由

该数据集由Chalkidis等人(2021年)策划。这些文档已由欧盟出版社( https://publications.europa.eu/en )进行了注释。

源数据

初始数据收集和规范化

原始数据在EUR-LEX门户网站( https://eur-lex.europa.eu )以未处理的格式(HTML、XML、RDF)提供。文档从EUR-LEX门户网站以HTML格式下载。相关的EUROVOC概念从欧盟出版社的SPARQL端点下载( http://publications.europa.eu/webapi/rdf/sparql )。我们去除了HTML标记以提供纯文本格式的文档。我们根据从原始分配的标签到它们在第1至第3级祖先中的标签的分支回溯EUROVOC层次结构,推断了EUROVOC级别1-3的标签。

从哪些源语言生产而来?

欧盟有24种官方语言。当新成员加入欧盟时,官方语言的集合通常会扩展,除非该语言已经包含在内。MultiEURLEX涵盖了来自七个语言系(日耳曼语、罗曼语、斯拉夫语、乌拉尔语、波罗的语、闪米特语、希腊语)的23种语言。所有官方语言的欧盟法律均以所有官方语言出版,除了基于资源原因(详见 https://europa.eu/european-union/about-eu/eu-languages_en )的爱尔兰语。这种广泛覆盖使得MultiEURLEX成为一个有价值的跨语言转移测试平台。所有语言都使用拉丁字母,除了保加利亚语(西里尔字母)和希腊语。欧盟国家还使用其他几种语言。欧盟国家还有超过60种其他土著区域或少数民族语言,例如巴斯克语、加泰罗尼亚语、弗里斯兰语、萨米语和意第绪语等,这些语言由约4000万人使用,但这些附加语言不被认为是官方语言(欧盟方面而言) ,欧盟法律不会被翻译成这些语言。

注释

注释流程

所有该数据集的文档均由欧盟出版社( https://publications.europa.eu/en )进行了多概念的EUROVOC注释( http://eurovoc.europa.eu/ )。EUROVOC拥有八个级别的概念。每个文档被分配一个或多个概念(标签)。如果一个文档被分配了一个概念,通常不会将该概念的祖先和后代分配给同一个文档。这些文档最初是在第3至第8级的概念上进行注释的。我们通过将每个分配的概念替换为来自第1、2或3级的祖先,为每个文档创建了三组替代标签。因此,我们为每个文档提供了四组金标签,分别对应于层次结构的前三个级别,以及原始稀疏标签分配。由于许多文档具有来自第三级的金概念,所以无法独立使用第4至第8级标签,如果丢弃第3级,则会造成许多文档的错误标注。

谁是标注者?

欧盟出版社( https://publications.europa.eu/en

个人和敏感信息

该数据集包含的欧盟法律是公开可用的,不包含个人或敏感信息,除了出于同意而提供的琐碎信息,例如欧洲议会和欧洲理事会以及其他行政机构的现任主席的姓名等。

使用数据的考虑事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

MultiEURLEX涵盖了来自七个语言系(日耳曼语、罗曼语、斯拉夫语、乌拉尔语、波罗的语、闪米特语、希腊语)的23种语言。这并不意味着欧盟国家没有使用其他语言,尽管欧盟法律不会翻译成其他语言( https://europa.eu/european-union/about-eu/eu-languages_en )。

附加信息

数据集策划者

Chalkidis等人(2021年)

许可信息

我们按照原始欧盟数据的许可证提供MultiEURLEX(CC-BY-4.0):

版权所有 欧洲联盟,1998-2021

委员会的文件再利用政策基于《2011/833/EU决定》。除非另有规定,您可以以商业或非商业目的再利用在EUR-Lex中发布的法律文件。

本网站的编辑内容,欧盟立法摘要和合并的文本版权归欧盟所有,根据知识共享署名4.0国际许可证授权。这意味着您可以重新使用内容,但您必须注明来源并指出您所做的任何更改。

来源: https://eur-lex.europa.eu/content/legal-notice/legal-notice.html 阅读更多: https://eur-lex.europa.eu/content/help/faq/reuse-contents-eurlex.html

引用信息

Ilias Chalkidis,Manos Fergadiotis和Ion Androutsopoulos。 MultiEURLEX-一个多语言和多标签的法律文件分类数据集,用于零样本跨语言转移。2021年大会的新颖方法在自然语言处理。2021年在多米尼加共和国蓬塔卡纳举行

@InProceedings{chalkidis-etal-2021-multieurlex,
  author = {Chalkidis, Ilias  
                and Fergadiotis, Manos
                and Androutsopoulos, Ion},
  title = {MultiEURLEX -- A multi-lingual and multi-label legal document 
               classification dataset for zero-shot cross-lingual transfer},
  booktitle = {Proceedings of the 2021 Conference on Empirical Methods
               in Natural Language Processing},
  year = {2021},
  publisher = {Association for Computational Linguistics},
  location = {Punta Cana, Dominican Republic},
  url = {https://arxiv.org/abs/2109.00904}
}

贡献

感谢 @iliaschalkidis 添加此数据集。