微软的研究人员已经发表了研究结果显示,他们的实验性AI诊断系统MAI-DxO在处理复杂医疗案例时显著优于人类医生,同时还降低了预估的测试成本。
研究的核心是微软的AI诊断协调器(MAI-DxO),它在医疗诊断中采用了一种不同于现有AI系统的方法。MAI-DxO不是一次性分析完整的病例信息,而是遵循一个顺序过程——从有限的患者信息开始,提出有针对性的问题,订购特定的测试,逐步建立诊断。
团队在《新英格兰医学杂志》的案例记录系列中测试了他们的系统,这些案例具有复杂的多层次医疗场景,常常挑战经验丰富的医生。这些案例代表了临床医学中一些最困难的诊断难题。
“我们正在向医疗超级智能迈出一大步,”Mustafa Suleyman在LinkedIn上指出。“AI模型已经通过了多项选择的医学考试——但真实的患者并没有ABC选项。”
这种方法不同于其他医疗AI系统,如谷歌的AMIE,后者主要关注对话能力或从完整信息中进行静态诊断。MAI-DxO则通过五个不同的AI角色模拟协作医疗小组:一个维护鉴别诊断,另一个选择测试,第三个挑战假设以避免锚定偏见,第四个执行成本意识的护理,第五个确保质量控制。
系统展示了在信息收集方面的战略思维。在一个涉及酒精戒断和手部消毒剂摄入的案例中,基线GPT-4模型订购了包括脑部MRI和脑电图在内的大量成像,导致估计成本为3431美元且诊断错误。MAI-DxO早期识别出需要考虑院内毒素暴露,询问了手部消毒剂的摄入情况,并通过针对性测试以795美元确认了诊断。
研究解决了医疗保健中日益增长的挑战,成本持续上升且诊断错误仍是一个重大问题。目前的AI诊断工具在分析医学图像和结构化数据方面表现出色,但将这些进展转化为现实世界的临床工作流程仍然具有挑战性。
研究发现,MAI-DxO在不同的AI基础模型中提高了性能,无论底层技术如何。当应用于OpenAI、Anthropic、谷歌等公司的模型时,协调的方法始终将诊断准确率平均提高了11个百分点,同时降低了预估成本。
研究正值多家科技公司推进AI在医疗保健中的应用之际。谷歌的AMIE系统在诊断对话中表现出色,最近获得了解释医学图像的能力。然而,尽管AMIE在受控环境中强调对话质量和同理心,微软的方法则专注于医疗诊断的战略推理和资源管理方面。
AI诊断研究可能有助于解决全球医疗保健获取挑战。全球医疗系统面临医生短缺和病例负担增加的问题,特别是在专业医疗人员有限的地区。
研究有几个重要的局限性值得注意。测试专注于复杂、罕见的病例,这些病例不代表典型的医疗实践。研究无法评估MAI-DxO在常见病症上的表现,或在追求罕见疾病时是否可能忽视明显的诊断。此外,受控测试环境不包括典型的临床限制,如电子健康记录、保险批准、患者偏好或医生在实践中面临的时间压力。
此外,医生虽然经验丰富,但在没有同事、教科书或他们通常在临床实践中使用的数字工具的情况下工作,可能低估了人类在典型条件下的表现。
目前,MAI-DxO仍处于研究阶段。微软研究人员强调,这代表了需要广泛验证的早期研究,才能进行任何临床应用。团队正在与医疗机构合作进行现实世界的研究,首先是与贝斯以色列女执事医疗中心的研究合作。
关键是,美国将近20%的GDP投入到医疗保健中,其中大约四分之一被认为是浪费。任何提供更高准确性和更少测试的东西对付款方来说都是诱人的。
如果MAI-DxO确实能在凌晨2点发现隐藏的心脏病发作,同时订购更少的测试,它不仅会在排行榜上名列前茅,还可能重塑分诊、计费和日常床边常规。如果协调器在真实生命受到威胁时继续获胜,明天在诊室的第一个问题可能是,“那么,小组有什么看法?”
Chris McKay是Maginative的创始人和总编辑。他在AI素养和战略AI采用方面的思想领导力已被顶级学术机构、媒体和全球品牌认可。