谷歌DeepMind的AlphaGenome,今天宣布的,不仅仅是AI科学竞赛中的又一个参赛作品。通过API访问可用于非商业研究,并提供详尽的文档和社区支持托管在GitHub上——这表明曾经局限于专业实验室和付费数据集的基因组学正迅速走向开放科学。
这是一件相当重要的事情。
想象一下,你的DNA就像一本关于你身体如何运作的巨大说明书。长期以来,科学家们只能真正理解那些直接告诉你身体如何构建事物的部分,比如蛋白质。但你大部分的DNA——超过90%——并不是这样的。它不会直接构建任何东西。人们过去称之为“垃圾DNA”。
现在我们知道,“垃圾”实际上在做一些重要的事情:它帮助控制真正的指令何时何地被使用——有点像一个充满开关和旋钮的控制面板。问题是,这部分DNA真的很难阅读和理解。
这就是AlphaGenome的用武之地。
AlphaGenome是由谷歌DeepMind构建的一个强大的AI模型,它能比以往任何时候更好地读取这些令人困惑的DNA部分。它使用先进的机器学习技术(类似于图像生成器或聊天机器人背后的技术)来查看长达百万字母的DNA片段,并找出哪些部分是重要的,它们如何影响你的基因,甚至突变如何可能导致疾病。
这有点像拥有一个超级智能的AI显微镜,不仅能读取说明书,还能弄清整个系统如何开启和关闭——以及当事情出错时会发生什么。
令人兴奋的是,DeepMind通过API分享这个工具(计算机与其通信的一种方式),因此世界各地的科学家和医学研究人员可以免费在他们的研究中使用它。这意味着它可以加速在遗传疾病、个性化医疗,甚至抗衰老治疗等领域的发现。
简而言之:AlphaGenome帮助科学家阅读我们以前不理解的DNA部分——这可能改变我们治疗疾病的所有方式。
AlphaGenome是一个深度学习模型,旨在分析DNA序列如何调控基因表达和其他关键功能。与解析短DNA片段的旧模型不同,AlphaGenome可以处理长达一百万碱基对的序列——这一前所未有的规模使其能够捕捉到以前方法错过的远程调控交互。
AlphaGenome的核心优势在于其多模态预测引擎。与只能预测一种基因组活动的先前模型不同,该模型输出基因表达(RNA-seq,CAGE)、剪接事件、染色质状态(包括DNase敏感性和组蛋白修饰)和3D染色质接触图的高分辨率预测。
这使得它不仅可以用于确定细胞中哪些基因被开启或关闭,还可以用于理解基因组折叠、编辑和可及性的复杂编排。
其架构值得注意,但如果你曾在本地使用Stable Diffusion或普通开源LLM,这仍然相当熟悉:AlphaGenome使用一个受U-Net启发的神经网络,约有4.5亿个可训练参数。
是的,如果你将其与使用数十亿参数的弱小语言模型相比,这个参数量相当低。然而,考虑到DNA只涉及4个碱基和仅两个对——基本上整个基因组不过是30亿对A-T和C-G字母对的组合——这是一个非常特定的模型,旨在极其出色地完成一件事。
该模型具有一个序列编码器,将输入从单碱基分辨率降采样到更粗的表示,然后变压器模型在解码器将输出重建回单碱基水平之前对长程依赖进行建模。这使得在各种分辨率下进行预测成为可能,允许进行细粒度和广泛的调控分析。
该模型的训练依赖于大量公开可用的数据集,包括ENCODE、GTEx、4D Nucleome和FANTOM5——这些资源共同代表了人类和小鼠细胞类型的数千个实验概况。
而且这个过程也相当快:使用谷歌的定制TPU,DeepMind仅用四小时就完成了预训练和蒸馏过程,使用的计算预算仅为其前身Enformer的一半。
AlphaGenome在24项序列预测测试中有22项和26项变异效应预测中有24项优于最先进的模型,在通常是渐进改进的基准测试中取得了罕见的全面胜利。事实上,它的工作如此出色,以至于可以比较突变和未突变的DNA,在几秒钟内预测遗传变异的影响——这是研究人员绘制疾病起源的关键工具。
这很重要,因为非编码基因组包含许多控制细胞功能和疾病风险的调控开关。像AlphaGenome这样的模型正在揭示人类生物学中有多少是由这些以前不透明的区域控制的。
今天AI对生物学的影响难以忽视。以Ankh为例,一个蛋白质语言模型由慕尼黑工业大学、哥伦比亚大学和初创公司Protinea的团队开发。Ankh将蛋白质序列视为语言,生成新蛋白质并预测其行为——类似于AlphaGenome翻译DNA的调控“语法”。
另一个相关技术,Nvidia的GenSLMs,展示了AI预测病毒突变和聚类遗传变异以进行大流行研究的能力。同时,AI在化学和基因基础上的抗衰老干预中推动进步,突显了基因组学、机器学习和医学的交汇。
AlphaGenome最显著的贡献之一是其可访问性。该模型并未局限于商业应用,而是通过公共API提供用于非商业研究。
虽然它尚未完全开源——这意味着研究人员无法下载、运行或在本地修改它——API和附带资源允许全球科学家生成预测,调整分析以适应各种物种或细胞类型,并提供反馈以塑造未来版本。DeepMind已表示计划在未来进行更广泛的开源发布。
AlphaGenome分析非编码变异的能力——大多数与疾病相关的突变都在这一领域——可能会解锁对遗传疾病和罕见疾病的新理解。其高速变异评分还支持个性化医疗,治疗方案可以根据个人独特的DNA特征量身定制。
目前,非编码基因组不再是一个黑匣子,AI在基因组学中的角色只会不断扩大。AlphaGenome可能不是带我们进入赫胥黎《美丽新世界》的模型,但它清楚地表明了未来的发展方向:更多的数据,更好的预测,以及对生命运作方式的更深入理解。