数据集:

biglam/cultural_heritage_metadata_accuracy

任务:

文本分类

子任务:

acceptability-classification

语言:

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

expert-generated

批注创建人:

machine-generated expert-generated

源数据集:

original

许可:

cc-by-4.0

数据集介绍文件清单

英文

评估文化遗产记录文本描述准确性的标注数据集

数据集概述

该数据集包含了来自意大利国家文化聚合器的超过100K个文化遗产物品的文本描述。每个描述都根据意大利中央编目和文档研究所（ICCD）提供的标准编目准则进行了标记，标记为HIGH质量或LOW质量。更具体地说，如果所提供的描述同时根据ICCD准则对物品和主题进行了描述，则将其标记为HIGH质量，否则标记为LOW质量。大部分数据集是手动标注的，约有30K个描述由于长度过短（小于3个标记）或来源于旧的（2012年之前），未加工的收藏品而自动标记为LOW质量。该数据集的开发旨在支持训练和测试用于自动评估数字文化遗产库中文本描述质量的机器学习文本分类方法。

支持的任务和排行榜

该数据集可以用于文本分类任务。介绍该数据集的论文在判断元数据记录是否为低质量或高质量的任务中获得了0.783的F1分数。请参阅论文中的概述以获取报告的所有结果。

语言

该数据集由意大利元数据记录组成，标签为英文。

数据集结构

该数据集只有一个配置。

数据实例

数据集中的一个示例实例：

{'metadata_text': 'Figure:putto.Oggetti:ghirlanda di fiori',
 'label': 0,
 'source': 'OpereArteVisiva'}

数据字段

数据字段包括：

metadata_text：包含从 Cultura Italia 中获取的元数据文本
label：表示记录的标签，可为High_Quality或Low_Quality。大部分数据集是手动标注的，约有30K个描述由于长度过短（小于3个标记）或来源于旧的（2012年之前），未加工的收藏品而自动标记为LOW质量。
source：元数据记录的来源

数据拆分

该数据集使用"十折交叉验证"，没有报告特定的训练、验证和测试数据拆分。

数据集创建

该数据集使用了从 Cultura Italia 中获取的记录。论文中介绍了数据集的生成方式：

通过使用Dublin Core元数据架构的dc:description元素编码的文本描述，我们收集了100,821个描述记录，经过去重处理。其中主要包括“Musei d’Italia”和“Regione Marche”数据集的数据，选择这些数据集是因为它们包含大量非空的dc:description元素。

策划理由

论文中提到的去重处理的原因是：这样可以减少后续手动标注的工作量，并避免相同的示例同时出现在训练集和测试集中，这种情况会导致分类有偏差，并在监督设置下导致评估不准确。重复的描述主要是短且质量低下，只使用了几个通用词语来描述物品（例如“Mensola。”，“Dipinto.”）。

源数据

初始数据收集和标准化：

该数据集是使用 Cultura Italia 中的记录生成的。这个数据仓库可以通过OAI-PMH处理程序或通过 SPARQL endpoint 进行访问。

如上所述，数据集中去掉了重复的记录。

源语言的生产者是谁？

元数据制作者是意大利文化遗产机构的工作人员。

注释

注释过程：

根据论文，大部分数据集是手动标注的，约有30K个描述由于长度过短（小于3个标记）或来源于旧的（2012年之前），未加工的收藏品而自动标记为LOW质量。

为确定收集到的描述的质量，论文的作者使用了 Istituto Centrale per il Catalogo e la Documentazione 提供的指南。

从论文中可以得知：

「更确切地说，指南的特定部分解释了如何描述任何文化物品，澄清了描述中必须如何呈现对象和主题：

对象：必须描述对象的类型和形状。为了描述对象，编目员必须参考ICCD提供的词汇表，使用具体的术语（例如绘画和素描的技巧，或者考古物品的材料）。

主题：编目员必须报告物品的形象描绘和装饰设置，例如绘画中描绘场景的角色及其归属。不应包括其他方面的内容（例如绘画或画家背后的历史）」。

[需要更多信息]

标注者是谁？

「标注由一位精通文化遗产领域、曾与意大利文化合作过并对数据特性和ICCD指南有深入了解的专家进行」。

个人和敏感信息

论文中没有描述个人或敏感信息。

使用数据时的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

Lorenzini, Matteo
Rospocher, Marco
Tonelli, Sara

许可信息

cc-by-4.0

引用信息

@article{Lorenzini2020,
author = "Matteo Lorenzini and Marco Rospocher and Sara Tonelli",
title = "{Annotated dataset to assess the accuracy of the textual description of cultural heritage records}",
year = "2020",
month = "12",
url = "https://figshare.com/articles/dataset/Annotated_dataset_to_assess_the_accuracy_of_the_textual_description_of_cultural_heritage_records/13359104",
doi = "10.6084/m9.figshare.13359104.v1"
}

贡献

感谢 @davanstrien 添加了这个数据集。

作者:

biglam

数据集大小:

15.03 KB