数据集:

ncbi_disease

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original
英文

NCBI疾病数据集卡

数据集摘要

该数据集包含NCBI疾病语料库的疾病名称和概念注释,该语料库是由793篇PubMed摘要完全注释而成,以作为生物医学自然语言处理社区的研究资源。

支持的任务和排行榜

命名实体识别: Leaderboard

语言

数据集中的文本为英文。相关的BCP-47代码为en。

数据集结构

数据实例

数据集的实例包含一个tokens数组,ner_tags和一个id。数据集的一个实例示例:

{
  'tokens': ['Identification', 'of', 'APC2', ',', 'a', 'homologue', 'of', 'the', 'adenomatous', 'polyposis', 'coli', 'tumour', 'suppressor', '.'],
  'ner_tags': [0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 2, 2, 0, 0],
  'id': '0'
  }

数据字段

  • id:句子标识符。
  • tokens:组成句子的标记数组。
  • ner_tags:标签数组,其中0表示没有提及疾病,1表示疾病的第一个标记,2表示后续的疾病标记。

数据拆分

数据分为训练集(5433个实例)、验证集(924个实例)和测试集(941个实例)。

数据集创建

策划理由

该数据集的目标是通过提供高质量的黄金标准来改进疾病名称识别和规范化研究的最新技术,从而使机器学习方法在这些任务中得到更好的发展。

源数据

初始数据收集和规范化

数据集由PubMed摘要组成。

谁是源语言的生产者?

源语言的生产者是存储在PubMed上的出版物摘要的作者。

注释

注释过程

每个PubMed摘要都由两个标记员手动注释,注释疾病提及及其对应的医学主题词(MeSH®)或在线遗传性血管遗传学(OMIM®)的概念。使用PubTator进行了手动筛选,允许使用预注释作为手动注释的预处理步骤。随机配对了14个注释人员,并对不同的注释进行了讨论,以便在两个注释阶段达成共识。最后,对所有结果进行了全局一致性的检查,以确保一致性。

谁是标注者?

标注者团队由14名在生物医学信息学研究领域有经验的人员组成,具有生物医学文本语料库注释的经验。

个人和敏感信息

[N/A]

使用数据的注意事项

数据集的社会影响

生物医学文献出版物中用自然语言编码的信息只有在能够有效和可靠地访问和分析该信息的方式可用时才有用。因此,自然语言处理和文本挖掘工具对于提取有价值的信息非常重要。该数据集提供了一个带注释的语料库,可以用于开发自动检测诸如疾病等重要生物医学概念的高效工具。

偏见讨论

为了避免注释偏见,每个数据集都随机选择了一对注释者,以使每对注释者最多重叠两个数据集。

其他已知限制

发现了一些未包含在MEDIC中的疾病概念。对于这些概念,我们决定包含适当的OMIM标识符。

此外,发现某些疾病提及不容易用标准分类表示。

另外,使用了为疾病名称规范化开发的推理方法,在每个PMID文档上进行了预注释,该方法正确处理缩写识别、强大的字符串匹配等。因此,人工注释人员使用预注释的文档作为起点,并允许查看每个预注释和计算置信度。

其他信息

数据集策划者

Rezarta Islamaj Doğan,Robert Leaman,Zhiyong Lu

许可信息

PUBLIC DOMAIN NOTICE

This work is a "United States Government Work" under the terms of the
United States Copyright Act. It was written as part of the authors'
official duties as a United States Government employee and thus cannot
be copyrighted within the United States. The data is freely available
to the public for use. The National Library of Medicine and the
U.S. Government have not placed any restriction on its use or
reproduction.

Although all reasonable efforts have been taken to ensure the accuracy
and reliability of the data and its source code, the NLM and the
U.S. Government do not and cannot warrant the performance or results
that may be obtained by using it. The NLM and the U.S. Government
disclaim all warranties, express or implied, including warranties of
performance, merchantability or fitness for any particular purpose.

Please cite the authors in any work or product based on this material:

An improved corpus of disease mentions in PubMed citations
http://aclweb.org/anthology-new/W/W12/W12-2411.pdf

NCBI Disease Corpus: A Resource for Disease Name Recognition and
Normalization http://www.ncbi.nlm.nih.gov/pubmed/24393765

Disease Name Normalization with Pairwise Learning to Rank
http://www.ncbi.nlm.nih.gov/pubmed/23969135

引文信息

@article{dougan2014ncbi,
  title={NCBI disease corpus: a resource for disease name recognition and concept normalization},
  author={Do{\u{g}}an, Rezarta Islamaj and Leaman, Robert and Lu, Zhiyong},
  journal={Journal of biomedical informatics},
  volume={47},
  pages={1--10},
  year={2014},
  publisher={Elsevier}
}

贡献

感谢 @edugp 添加此数据集。