谷歌新型Med-Gemini多模态模型助力医学AI突破

2024年05月06日 由 daydream 发表 1035 0

谷歌的研究团队最近发表了一篇论文,介绍了一种名为Med-Gemini的新型多模态模型家族。这一模型家族是在他们先前的强大Gemini模型基础上构建的,通过在临床推理、多模态理解和长上下文处理方面的创新,Med-Gemini在广泛的医疗基准测试中取得了卓越的性能,展现出在现实世界应用中的巨大潜力。


微信截图_20240506100111


Med-Gemini的根基来自Gemini 1.0和Gemini 1.5模型,并针对医学领域进行了深入的优化和专业化。通过结合微调和自训练技术,Med-Gemini特别注重提升模型的高级推理能力和网络搜索的整合利用。


微信截图_20240506100129


对于需要高级推理能力的任务,研究团队基于Gemini 1.0 Ultra模型开发了Med-Gemini-L 1.0模型。他们通过生成带有推理解释的合成数据集,即“思考链”(Chain-of-Thoughts,CoTs),并融入网络搜索结果,显著提高了模型利用外部信息的能力。


微信截图_20240506100143


针对多模态理解的需求,研究团队在Gemini 1.5 Pro模型的基础上微调,创建了Med-Gemini-M 1.5模型。此外,他们还专为处理原始生物医学信号(如心电图ECG)设计了Med-Gemini-S 1.0模型,通过为Gemini 1.0 Nano模型配备特定的编码器来实现。


Med-Gemini模型引入了多项创新技术:


首先,通过自我训练和网络搜索的集成,Med-Gemini显著提升了高级推理能力,能够为复杂的临床查询提供更精确、更详细的解答。例如,Med-Gemini-L 1.0在MedQA(USMLE)基准测试中达到了91.1%的准确率,刷新了医学问答领域的记录。


其次,通过微调和定制编码器,Med-Gemini显著增强了多模态理解能力,使其能够轻松适应新的医学数据类型,如心电图。在包括NEJM图像挑战在内的七个多模态基准测试中,Med-Gemini的平均性能比GPT-4V高出44.5%。此外,Med-Gemini-M 1.5在多模态医学对话方面的潜力也得到了充分展示。


最后,Med-Gemini具有高效的长上下文处理能力,能够轻松应对冗长的医疗记录和视频。在一项极具挑战性的“大海捞针”任务中,Med-Gemini-M 1.5从广泛的电子健康记录(EHR)数据中识别出细微的发现,其表现与精心设计的基线相当。同时,它还在医学教学视频问答领域树立了新的标杆。


这些强大的能力为Med-Gemini在现实世界中的应用提供了广阔的舞台。定量评估显示,Med-Gemini生成的医疗访问摘要和转诊信得到了临床医生的认可,认为它们与专家撰写的版本不相上下。早期的演示还展示了Med-Gemini在诸如多模态诊断协助、生物医学研究总结和医学教育等领域的应用潜力。


然而,研究人员也强调,在将这些AI系统部署到关键医疗安全环境中之前,还需要进行严格的评估和改进。他们特别关注公平性、隐私性、透明性和减少无意中的偏见等问题。


总体而言,Med-Gemini是医学领域AI技术的一次重大突破,为加速生物医学进步和改善医疗体验提供了强有力的支持。

文章来源:https://www.maginative.com/article/med-gemini-advancing-medical-ai-with-highly-capable-multimodal-models/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消