医学问题和回答数据集(MQuAD)已经被细化,包括以下数据集。您可以通过Hugging Face数据集进行下载。使用如下所示的DATASETS方法。
from datasets import load_dataset
dataset = load_dataset("danielpark/MQuAD-v1")
 从以下网站收集的医学问答数据集。
MQuAD提供了以字符串格式嵌入的问题和答案数组,建议将字符串格式的数组转换为浮点格式,方法如下。这个措施已经被应用来节省嵌入所使用的资源和时间。
from datasets import load_dataset
from utilfunction import col_convert
import pandas as pd
qa = load_dataset("danielpark/MQuAD-v1", "csv")
df_qa = pd.DataFrame(qa['train'])
df_qa = col_convert(df_qa, ['Q_FFNN_embeds', 'A_FFNN_embeds'])