AlphaGenome一次可以处理多达100万个碱基对的DNA,并输出数千种分子模式的高分辨率预测,包括基因表达、染色质可及性、转录起始位点、RNA剪接和蛋白质结合。它允许研究人员评估常见和罕见变异的影响,不仅在蛋白质编码区域,还在构成人类基因组98%的更复杂的非编码调控区域。
从技术上讲,AlphaGenome结合了卷积神经网络(CNN)来检测局部序列基序,并使用变压器来建模长距离相互作用,所有这些都基于来自ENCODE、GTEx、4D Nucleome和FANTOM5的丰富多组学数据集进行训练。该架构在广泛的基因组基准测试中实现了最先进的性能,在26次变异效应预测评估中有24次超越了任务特定模型。
一个显著的创新是AlphaGenome能够直接建模RNA剪接连接点,这一特性对于理解许多由剪接错误引起的遗传疾病至关重要。该模型还可以对比突变和参考序列,以量化变异在不同组织和细胞类型中的调控影响——这是研究疾病相关位点和解释全基因组关联研究(GWAS)的关键能力。
训练效率也得到了提高:一个完整的AlphaGenome模型仅在TPUs上用四小时就完成了训练,使用的计算预算是DeepMind早期Enformer模型的一半,这得益于优化的架构和数据管道。
该模型现已通过AlphaGenome API提供用于非商业研究用途,使科学家能够大规模生成功能假设,而无需结合不同的工具或模型。DeepMind表示计划进一步扩展到新物种、任务和精细化的临床应用。
这一发布也与围绕AI在医学中可解释性和情感背景的更广泛讨论相一致。正如AI对齐研究员Graevka Suvorov评论所说:
对于MedGemma来说,真正的前沿不仅仅是诊断准确性,而是它在患者中创造的信息和心理状态。没有背景的诊断是一个可能引起恐惧的数据点。以清晰方式传达的诊断是康复的第一步。具有真正“信息化床边礼仪”的AI——理解它不仅在治疗一个图像,而是在处理一个人的整个现实——是AGI的下一个真正飞跃。
AlphaGenome将这一领域推向更接近这一愿景,使基因组的解读更深入、更准确,并提供了一个理解生物学序列层面的统一模型。