呼叫算法医生：微软的AI像豪斯医生一样诊断，像好市多一样收费

2025年07月02日由佚名发表 413 0

萨提亚·纳德拉希望AI成为你的下一个医生。

这位微软CEO本周在社交媒体上宣布了两项医疗AI的进展，其中包括MAI-DxO，一个模拟多个虚拟医生共同解决医学难题的系统。

在对《新英格兰医学杂志》中的304个复杂病例进行测试时，微软报告称AI正确诊断了其中的85.5%。而21位经验丰富的医生处理同样的病例时，他们的正确诊断率仅为20%。

“很高兴分享两项让我们在医疗AI领域更接近现实世界影响的进展，”纳德拉写道。“MAI-DxO是一个与模型无关的协调器，模拟一个虚拟医生小组。它实现了85.5%的诊断准确率——是经验丰富医生的四倍——同时降低了诊断成本。”

很高兴分享两项让我们在医疗AI领域更接近现实世界影响的进展：
SDBench引入了一个新的基准，将304个NEJM病例转化为互动诊断模拟。AI必须提问、下订单测试并权衡成本，反映出复杂性……pic.twitter.com/lASC4hK730
——萨提亚·纳德拉 (@satyanadella)2025年6月30日

这一宣布正值微软加入一个拥挤的科技公司行列，竞相将AI应用于医疗保健最棘手的问题。

美国人每年花费近5万亿美元在医疗保健上——而诊断错误每年影响1200万人。根据约翰·霍普金斯大学的说法，使用AI来解决与人相关的问题似乎是显而易见的选择。

微软的医疗委员会如何运作

MAI-DxO就像一个被困在计算机中的医学梦之队。该系统通过微软称之为顺序诊断基准（SDBench）的方式处理病例。

与传统医学AI测试中的多项选择题不同，它反映了医生实际工作的方式：从有限的患者信息开始，提出后续问题，订购测试，并随着新数据的到来调整理论。

每次测试都会产生虚拟货币的成本，迫使AI在全面性和医疗支出之间取得平衡。

换句话说，它基本上模拟了一个医疗委员会在讨论一个病例，不同的模型扮演不同的角色。模型们辩论、分歧，最终达成共识，就像你的医生们在研究一个具有挑战性的病例时会做的那样。

在一种配置中，MAI-DxO实现了80%的准确率，每个病例花费2397美元，比医生通常花费的2963美元少约20%。

在最佳性能下，它以每个病例7184美元的成本实现了85.5%的准确率。相比之下，OpenAI的独立o3模型实现了78.6%的准确率，但花费7850美元。

虚拟医生小组包括假设医生，他使用贝叶斯概率方法维护三个最可能诊断的运行列表。

测试选择医生每轮选择最多三个诊断测试，旨在获得最大的信息增益。

挑战者医生充当反对者，寻找与现有理论相矛盾的证据。管理医生否决诊断价值低的昂贵测试。

同时，检查表医生确保所有测试名称有效，团队的推理保持一致。

微软在2024年至2025年间发表在《新英格兰医学杂志》上的病例上测试了该系统，消除了模型记住答案的可能性。

这些研究是需要彻底检查才能正确诊断的困难病例。

微软招募的21位医生用于比较，他们的经验在5到20年之间，中位数为12年。

他们在没有同事、教科书或AI帮助的情况下工作，以确保对原始诊断能力的公平比较。他们在这些公认困难的病例中报告了20%的成功率。

该系统以多种模式运行。“即时答案”仅基于初始信息提供诊断，费用为300美元——相当于一次医生就诊的费用。

“仅提问”允许后续提问而不订购测试。“预算”跟踪成本并设定最大支出限额。“无预算”让小组自由发挥，而“集成”运行多个小组并汇总他们的结论以获得最大准确性。

医学的未来？

MAI-DxO代表了微软在消费者健康AI领域的更广泛推动。

该公司报告其Bing和Copilot产品每天有超过5000万次与健康相关的会话。从膝盖疼痛搜索到紧急护理查询，微软认为搜索引擎和AI助手将成为医疗保健的新入口。

当然，这只是医疗技术漫长时间线上的又一步。

作为背景，斯坦福的MYCIN系统在20世纪70年代诊断细菌感染，而谷歌的AMIE去年才模拟医生与患者的对话。

微软开发了MAI-DxO作为一个与模型无关的系统，这意味着它可以与来自不同公司的AI模型一起工作。

在测试中，它提高了OpenAI、谷歌、Anthropic、Meta等公司的模型性能，平均提高了11%。在所有测试的模型中，这一改进在统计上具有显著性。

领导微软AI研究的多米尼克·金博士和哈沙·诺里在博客文章中强调，这项技术仍然是一个研究演示。

“在生成式AI可以安全和负责任地在医疗保健中部署之前，仍然存在重要挑战，”他们写道。该系统在复杂诊断挑战中表现出色，但需要在常规病例中进行测试。

微软计划提交研究以供同行评审，并正在与医疗保健组织合作，在临床环境中验证该方法。

公司已明确表示，任何部署都需要“严格的安全测试、临床验证和监管审查。”

目前，MAI-DxO仍然局限于研究实验室。但由于诊断错误导致近10%的患者死亡并每年影响数百万人，微软的虚拟医生小组代表了向AI辅助医疗保健迈出的又一步。

这支由五位医生组成的AI团队可能比21位人类医生的组合诊断得更好，但要看到主流应用还为时过早。

微软表示AI不会取代医生；它将增强他们的能力。那些在这些严酷的NEJM病例中得分20%的21位医生可能希望这是真的。

文章来源：https://decrypt.co/328095/microsofts-ai-diagnoses-like-house-bills-like-costco

标签：

微软

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Cloudflare对AI爬虫按下终止开关——整个行业欢呼

下一篇埃隆·马斯克的xAI筹集100亿美元以升级其AI基础设施

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术