模型:
medalpaca/medalpaca-13b
模型描述
medalpaca-13b 是一个专为医学领域任务特别微调的大型语言模型。它基于LLaMA(大型语言模型元AI)并包含130亿参数。该模型的主要目标是改进问答和医学对话任务。
这个项目的训练数据来自各个资源。首先,我们使用Anki闪卡自动生成问题,从卡片的正面生成问题,从卡片的背面生成答案。其次,我们从 Wikidoc 生成医学问答对。我们提取具有相关标题的段落,并使用Chat-GPT 3.5从标题和相应的段落生成问题作为答案。该数据集仍在开发中,我们相信大约70%的问题-答案对是事实正确的。第三,我们使用StackExchange提取问题-答案对,从五个类别中选择评分最高的问题:学术界,生物信息学,生物学,健身和健康。此外,我们还使用来自 ChatDoctor 的数据集,其中包含20万个问题-答案对,可在 https://github.com/Kent0n-Li/ChatDoctor 获取。
| Source | n items | 
|---|---|
| ChatDoc large | 200000 | 
| wikidoc | 67704 | 
| Stackexchange academia | 40865 | 
| Anki flashcards | 33955 | 
| Stackexchange biology | 27887 | 
| Stackexchange fitness | 9833 | 
| Stackexchange health | 7721 | 
| Wikidoc patient information | 5942 | 
| Stackexchange bioinformatics | 5407 | 
要评估模型在特定数据集上的性能,您可以使用Hugging Face Transformers库提供的内置评估脚本。请参阅评估指南获取更多信息。推理
您可以使用Hugging Face Transformers库对模型进行推理任务,如问答和医学对话。以下是如何在问答任务中使用模型的示例:
from transformers import pipeline
pl = pipeline("text-generation", model="medalpaca/medalpaca-13b", tokenizer="medalpaca/medalpaca-13b")
question = "What are the symptoms of diabetes?"
context = "Diabetes is a metabolic disease that causes high blood sugar. The symptoms include increased thirst, frequent urination, and unexplained weight loss."
answer = pl(f"Context: {context}\n\nQuestion: {question}\n\nAnswer: ")
print(answer)
 该模型在医学领域之外的范围内可能表现不佳。训练数据主要针对医学生的知识水平,这可能导致在满足董事会认证的医生需求时存在限制。该模型尚未在实际应用中进行测试,因此其功效和准确性目前尚不可知。它绝不能用作医生意见的替代品,必须仅视为研究工具。