萨提亚·纳德拉希望AI成为你的下一个医生。
这位微软CEO本周在社交媒体上宣布了两项医疗AI的进展,其中包括MAI-DxO,一个模拟多个虚拟医生共同解决医学难题的系统。
在对《新英格兰医学杂志》中的304个复杂病例进行测试时,微软报告称AI正确诊断了其中的85.5%。而21位经验丰富的医生处理同样的病例时,他们的正确诊断率仅为20%。
“很高兴分享两项让我们在医疗AI领域更接近现实世界影响的进展,”纳德拉写道。“MAI-DxO是一个与模型无关的协调器,模拟一个虚拟医生小组。它实现了85.5%的诊断准确率——是经验丰富医生的四倍——同时降低了诊断成本。”
很高兴分享两项让我们在医疗AI领域更接近现实世界影响的进展:
SDBench引入了一个新的基准,将304个NEJM病例转化为互动诊断模拟。AI必须提问、下订单测试并权衡成本,反映出复杂性……pic.twitter.com/lASC4hK730
——萨提亚·纳德拉 (@satyanadella)2025年6月30日
这一宣布正值微软加入一个拥挤的科技公司行列,竞相将AI应用于医疗保健最棘手的问题。
美国人每年花费近5万亿美元在医疗保健上——而诊断错误每年影响1200万人。根据约翰·霍普金斯大学的说法,使用AI来解决与人相关的问题似乎是显而易见的选择。
微软的医疗委员会如何运作
MAI-DxO就像一个被困在计算机中的医学梦之队。该系统通过微软称之为顺序诊断基准(SDBench)的方式处理病例。
与传统医学AI测试中的多项选择题不同,它反映了医生实际工作的方式:从有限的患者信息开始,提出后续问题,订购测试,并随着新数据的到来调整理论。
每次测试都会产生虚拟货币的成本,迫使AI在全面性和医疗支出之间取得平衡。
换句话说,它基本上模拟了一个医疗委员会在讨论一个病例,不同的模型扮演不同的角色。模型们辩论、分歧,最终达成共识,就像你的医生们在研究一个具有挑战性的病例时会做的那样。
在一种配置中,MAI-DxO实现了80%的准确率,每个病例花费2397美元,比医生通常花费的2963美元少约20%。
在最佳性能下,它以每个病例7184美元的成本实现了85.5%的准确率。相比之下,OpenAI的独立o3模型实现了78.6%的准确率,但花费7850美元。
虚拟医生小组包括假设医生,他使用贝叶斯概率方法维护三个最可能诊断的运行列表。
测试选择医生每轮选择最多三个诊断测试,旨在获得最大的信息增益。
挑战者医生充当反对者,寻找与现有理论相矛盾的证据。管理医生否决诊断价值低的昂贵测试。
同时,检查表医生确保所有测试名称有效,团队的推理保持一致。
微软在2024年至2025年间发表在《新英格兰医学杂志》上的病例上测试了该系统,消除了模型记住答案的可能性。
这些研究是需要彻底检查才能正确诊断的困难病例。
微软招募的21位医生用于比较,他们的经验在5到20年之间,中位数为12年。
他们在没有同事、教科书或AI帮助的情况下工作,以确保对原始诊断能力的公平比较。他们在这些公认困难的病例中报告了20%的成功率。
该系统以多种模式运行。“即时答案”仅基于初始信息提供诊断,费用为300美元——相当于一次医生就诊的费用。
“仅提问”允许后续提问而不订购测试。“预算”跟踪成本并设定最大支出限额。“无预算”让小组自由发挥,而“集成”运行多个小组并汇总他们的结论以获得最大准确性。
医学的未来?
MAI-DxO代表了微软在消费者健康AI领域的更广泛推动。
该公司报告其Bing和Copilot产品每天有超过5000万次与健康相关的会话。从膝盖疼痛搜索到紧急护理查询,微软认为搜索引擎和AI助手将成为医疗保健的新入口。
当然,这只是医疗技术漫长时间线上的又一步。
作为背景,斯坦福的MYCIN系统在20世纪70年代诊断细菌感染,而谷歌的AMIE去年才模拟医生与患者的对话。
微软开发了MAI-DxO作为一个与模型无关的系统,这意味着它可以与来自不同公司的AI模型一起工作。
在测试中,它提高了OpenAI、谷歌、Anthropic、Meta等公司的模型性能,平均提高了11%。在所有测试的模型中,这一改进在统计上具有显著性。
领导微软AI研究的多米尼克·金博士和哈沙·诺里在博客文章中强调,这项技术仍然是一个研究演示。
“在生成式AI可以安全和负责任地在医疗保健中部署之前,仍然存在重要挑战,”他们写道。该系统在复杂诊断挑战中表现出色,但需要在常规病例中进行测试。
微软计划提交研究以供同行评审,并正在与医疗保健组织合作,在临床环境中验证该方法。
公司已明确表示,任何部署都需要“严格的安全测试、临床验证和监管审查。”
目前,MAI-DxO仍然局限于研究实验室。但由于诊断错误导致近10%的患者死亡并每年影响数百万人,微软的虚拟医生小组代表了向AI辅助医疗保健迈出的又一步。
这支由五位医生组成的AI团队可能比21位人类医生的组合诊断得更好,但要看到主流应用还为时过早。
微软表示AI不会取代医生;它将增强他们的能力。那些在这些严酷的NEJM病例中得分20%的21位医生可能希望这是真的。