数据集:
bigbio/med_qa
在这项工作中,我们提供了第一个用于解决医学问题的自由形式多项选择题开放问答(OpenQA)数据集MedQA,该数据集从专业的医学委员会考试中收集。它涵盖了英语、简体中文和繁体中文三种语言,分别包含12,723、34,251和14,123个问题。除了问题数据,我们还收集并发布了一部来自医学教科书的大规模语料库,阅读理解模型可以从中获取回答问题所需的知识。
@article{jin2021disease,
title={What disease does this patient have? a large-scale open domain question answering dataset from medical exams},
author={Jin, Di and Pan, Eileen and Oufattole, Nassim and Weng, Wei-Hung and Fang, Hanyi and Szolovits, Peter},
journal={Applied Sciences},
volume={11},
number={14},
pages={6421},
year={2021},
publisher={MDPI}
}