英文

SciCo 数据集卡片

数据集概述

SciCo 包含上下文中的提及簇和它们之间的层次结构。该语料库来自计算机科学论文,其中的概念提及方法和来自计算机科学各领域的任务。科学概念存在显著挑战:它们通常采用多样的形式(例如,类条件图像合成和分类图像生成)或具有歧义(例如,AI领域和系统研究中的网络架构)。为了构建 SciCo,我们采用了三种资源进行了新的候选生成方法的开发:低覆盖率知识库( https://paperswithcode.com/ )、噪声上义词提取器和策划的候选项。

支持的任务和排行榜

More Information Needed

语言

数据集中的文本为英文。

数据集结构

数据实例

More Information Needed

数据字段

  • flatten_tokens: 主题中所有标记的列表
  • flatten_mentions: 提及的数组,每个提及由 [开始位置,结束位置,簇标识符] 表示
  • tokens: 段落的数组
  • doc_ids: tokens 中每个段落的文档标识符
  • metadata: 每个文档标识符的元数据
  • sentences: tokens 中每个段落的句子边界 [开始位置,结束位置]
  • mentions: 提及的数组,每个提及由 [段落标识符,开始位置,结束位置,簇标识符] 表示
  • relations: 簇标识符之间的二元关系的数组 [父节点,子节点]
  • id: 主题的标识符
  • hard_10 和 hard_20(仅在测试集中存在): 基于Levenshtein相似度的最难 10% 或 20% 主题的标识
  • source: 主题的来源,PapersWithCode(pwc)、上义词或策划的

数据拆分

Train Validation Test
Topic 221 100 200
Documents 9013 4120 8237
Mentions 10925 4874 10424
Clusters 4080 1867 3711
Relations 2514 1747 2379

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

源语言的制作者是谁?

More Information Needed

注释

注释过程

More Information Needed

注释者是谁?

More Information Needed

个人隐私信息

More Information Needed

使用数据的注意事项

数据集的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

附加信息

数据集策划者

该数据集最初由Arie Cattan、Sophie Johnson、Daniel Weld、Ido Dagan、Iz Beltagy、Doug Downey和Tom Hope创建,Arie在Allen Institute of Artificial Intelligence实习期间创建了该数据集。

许可信息

该数据集以 Apache License 2.0 发布。

引用信息

@inproceedings{
    cattan2021scico,
    title={SciCo: Hierarchical Cross-Document Coreference for Scientific Concepts},
    author={Arie Cattan and Sophie Johnson and Daniel S. Weld and Ido Dagan and Iz Beltagy and Doug Downey and Tom Hope},
    booktitle={3rd Conference on Automated Knowledge Base Construction},
    year={2021},
    url={https://openreview.net/forum?id=OFLbgUP04nC}
}

贡献者

感谢 @ariecattan 添加了此数据集。