谷歌新型Med-Gemini多模态模型助力医学AI突破

2024年05月06日由 daydream 发表 1739 0

谷歌的研究团队最近发表了一篇论文，介绍了一种名为Med-Gemini的新型多模态模型家族。这一模型家族是在他们先前的强大Gemini模型基础上构建的，通过在临床推理、多模态理解和长上下文处理方面的创新，Med-Gemini在广泛的医疗基准测试中取得了卓越的性能，展现出在现实世界应用中的巨大潜力。

微信截图_20240506100111

Med-Gemini的根基来自Gemini 1.0和Gemini 1.5模型，并针对医学领域进行了深入的优化和专业化。通过结合微调和自训练技术，Med-Gemini特别注重提升模型的高级推理能力和网络搜索的整合利用。

微信截图_20240506100129

对于需要高级推理能力的任务，研究团队基于Gemini 1.0 Ultra模型开发了Med-Gemini-L 1.0模型。他们通过生成带有推理解释的合成数据集，即“思考链”（Chain-of-Thoughts，CoTs），并融入网络搜索结果，显著提高了模型利用外部信息的能力。

微信截图_20240506100143

针对多模态理解的需求，研究团队在Gemini 1.5 Pro模型的基础上微调，创建了Med-Gemini-M 1.5模型。此外，他们还专为处理原始生物医学信号（如心电图ECG）设计了Med-Gemini-S 1.0模型，通过为Gemini 1.0 Nano模型配备特定的编码器来实现。

Med-Gemini模型引入了多项创新技术：

首先，通过自我训练和网络搜索的集成，Med-Gemini显著提升了高级推理能力，能够为复杂的临床查询提供更精确、更详细的解答。例如，Med-Gemini-L 1.0在MedQA（USMLE）基准测试中达到了91.1%的准确率，刷新了医学问答领域的记录。

其次，通过微调和定制编码器，Med-Gemini显著增强了多模态理解能力，使其能够轻松适应新的医学数据类型，如心电图。在包括NEJM图像挑战在内的七个多模态基准测试中，Med-Gemini的平均性能比GPT-4V高出44.5%。此外，Med-Gemini-M 1.5在多模态医学对话方面的潜力也得到了充分展示。

最后，Med-Gemini具有高效的长上下文处理能力，能够轻松应对冗长的医疗记录和视频。在一项极具挑战性的“大海捞针”任务中，Med-Gemini-M 1.5从广泛的电子健康记录（EHR）数据中识别出细微的发现，其表现与精心设计的基线相当。同时，它还在医学教学视频问答领域树立了新的标杆。

这些强大的能力为Med-Gemini在现实世界中的应用提供了广阔的舞台。定量评估显示，Med-Gemini生成的医疗访问摘要和转诊信得到了临床医生的认可，认为它们与专家撰写的版本不相上下。早期的演示还展示了Med-Gemini在诸如多模态诊断协助、生物医学研究总结和医学教育等领域的应用潜力。

然而，研究人员也强调，在将这些AI系统部署到关键医疗安全环境中之前，还需要进行严格的评估和改进。他们特别关注公平性、隐私性、透明性和减少无意中的偏见等问题。

总体而言，Med-Gemini是医学领域AI技术的一次重大突破，为加速生物医学进步和改善医疗体验提供了强有力的支持。

文章来源：https://www.maginative.com/article/med-gemini-advancing-medical-ai-with-highly-capable-multimodal-models/

标签：

谷歌 Med-Gemini AI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇【评估】医疗数据的差异隐私和联合学习

下一篇谷歌DeepMind发布AlphaFold 3 蛋白质结构预测新飞跃

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来