人工智能在医疗领域大展身手：GPT-3.5和4在临床推理方面均表现出色

2024年01月29日由 neo 发表 563 0

在近期发表在《npj Digital Medicine》杂志上的一项研究中，研究人员对大型语言模型（LLM）是否具备模拟诊断性临床推理的能力进行了探究。

QQ截图20240129133723

LLM是基于人工智能的系统，通过大量文本数据进行训练，已经展现出诸如撰写临床记录和通过医学考试等任务的出色表现。然而，真正决定它们能否融入临床护理的关键在于理解其临床诊断推理能力。

本研究主要集中在开放式的临床问题上，并指出创新的大型语言模型如GPT-4有可能识别复杂的患者。提示工程在这一领域起到了关键作用，因为LLM的表现会根据提示和问题的类型而有所变化。

研究人员的研究主要针对GPT-3.5和GPT-4模型，评估它们在开放式临床问题上的诊断推理能力。研究人员假设GPT模型可以通过诊断推理提示超越传统的思维链（CoT）提示。

研究人员采用了修订后的MedQA美国医学执照考试（USMLE）数据集和新英格兰医学杂志（NEJM）病例系列作为数据来源。这些数据集涵盖了形成鉴别诊断、分析推理、贝叶斯推理和直觉推理等认知过程。

研究人员调查了大型语言模型是否能够使用专门的提示来模拟临床推理技能，将临床专业知识与先进的提示技术相结合。

通过提示工程，研究人员生成了诊断推理提示，这些提示旨在消除多项选择，将问题转化为自由回答形式。研究人员仅选取了USMLE数据集中的第二步和第三步问题，以及评估患者诊断的问题。

为了评估LLM的准确性，研究人员使用了MedQA训练集对GPT-3.5进行了评估。训练集和测试集分别包含95个和518个问题，这些数据被保留用于评估。研究人员还评估了GPT-4在NEJM杂志上发表的310个病例中的表现。研究人员排除了10个没有明确最终诊断或超过GPT-4最大上下文长度限制的病例。研究人员将传统的CoT提示与在MedQA数据集上表现最佳的临床诊断推理CoT提示（鉴别诊断的推理）进行了比较。

每个提示都包含了两个使用目标推理技术或少量样本学习来解释理由的示例问题。研究评估使用了USMLE和NEJM病例报告系列中的自由回答问题，以便在提示策略之间进行严格的比较。

医师作者、主治医师和一名内科住院医师对语言模型的回答进行了评估，每个问题由两名盲审医师评估。第三名研究人员负责解决分歧。如有需要，医生使用软件验证答案的准确性。

研究人员的研究结果表明，GPT-4的提示在不降低诊断准确性的情况下，成功模拟了临床医生的推理能力。这对于提高LLM在患者护理中的可信度至关重要，使其更接近安全有效的医学应用。这一方法有助于克服LLM的黑箱限制，使其更接近安全有效的医学应用。

在标准CoT提示下，GPT-3.5准确地回答了46%的评估问题。通过非思维链提示，它准确地回答了31%的问题。在与临床诊断推理相关的提示中，GPT-3.5在直觉型推理方面表现最佳（48%比46%）。然而，与经典的思维链相比，它在分析推理提示（40%）和制定鉴别诊断提示（38%）方面的表现明显较差，而贝叶斯推理则未达到显著性（42%）。

GPT-4的表现相对优于GPT-3.5，显示更高的准确性。在经典的思维链、直觉型推理、鉴别诊断推理、分析推理提示和贝叶斯推理方面，GPT-4分别显示了76%、77%、78%、78%和72%的准确性。在MedQA评估中，GPT-4的评审者一致性为99%。此外，GPT-4在NEJM数据集上的表现也较为出色，与传统CoT相比得分为38%，在制定鉴别诊断方面得分为34%。

文章来源：https://www.news-medical.net/news/20240128/AI-steps-up-in-healthcare-GPT-35-and-4-excel-in-clinical-reasoning.aspx

标签：

人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇谷歌的AI聊天机器人AMIE在诊断医疗状况方面超越人类医生

下一篇《纽约时报》计划推出新的生成式人工智能广告工具

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术