数据集:
bigbio/n2c2_2006_deid
去标识化挑战的数据来自Partners Healthcare,并且仅包含医学出院小结。我们通过注释和用真实的替代值替换所有真实的PHI来准备挑战的数据。
根据上述定义,我们在两个阶段标记记录中真实的PHI。在第一个阶段,我们使用了自动系统31。在第二个阶段,我们手动验证了自动系统的输出。包括本科生、研究生和教授在内的三个注释人员对每个记录进行了三次手动处理。他们在标记和讨论不一致的PHI标签后进行了最终确定。
原始数据集没有为每个实体计算范围。这个加载程序中计算出范围,并保留与标签对应的最终文本。
@article{uzuner2007evaluating,
author = {
Uzuner, Özlem and
Luo, Yuan and
Szolovits, Peter
},
title = {Evaluating the State-of-the-Art in Automatic De-identification},
journal = {Journal of the American Medical Informatics Association},
volume = {14},
number = {5},
pages = {550-563},
year = {2007},
month = {09},
url = {https://doi.org/10.1197/jamia.M2444},
doi = {10.1197/jamia.M2444},
eprint = {https://academic.oup.com/jamia/article-pdf/14/5/550/2136261/14-5-550.pdf}
}