当NVIDIA的首席执行官黄健生谈到他如何使用ChatGPT来理解生成式AI如何解决现实世界的问题,如塑料降解、减少碳排放等时,我们很少有人知道,一家欧洲AI创业公司将使用大型语言模型为DNA和蛋白质序列来解决这个问题,并且实际用例已经出现。
“我们今天消费的约60%的东西,无论是药物、食品还是化学品,都可以通过生物手段制造。这比起人们正在研究的其他一些应用,感觉更有影响力,”Cradle的联合创始人兼首席执行官Stef van Grieken说道。
使用LLM进行生物工程学
Cradle是一家欧洲生物技术创业公司,利用AI帮助科学家更快、更经济地设计和制造蛋白质。这家AI创业公司专注于利用生成式AI对工程蛋白质模式(如酶、疫苗、肽和抗体)进行改造。
与ChatGPT类似,你可以给它一个方程式并得到答案,或者给它一个提示并得到一个图片。在Cradle,输入DNA的描述或分子的外观,并添加需要对其执行的操作。例如,与细胞上的特定物质结合,保持稳定,或在水中的溶解性。
“它的作用是生成另一组序列,你可以将其带入实验室,这些序列有更高的可能性完成所需的操作,”Grieken说。“这与扩散图片不同,你是在扩散一个分子。”
与GPT通过填充(infilling)进行训练的方式类似,即从句子中移除单词并要求模型填充,Cradle的工作方式也类似,只不过这是针对DNA和蛋白质序列进行的。
这些模型在超越先前基准方面的进步数量和增强规模大约是之前方法的两倍。“这意味着在研发项目的整个过程中,你实现目标的速度是以前的两倍,”Grieken说。
“谷歌、脸书等公司所做的大量工作更多是在机器学习研发方面。他们并没有试图构建帮助生物学家以某种简单方式使用这些方法的工具,”他说。
Cradle在专有模型上开展工作,这些模型受到基于Transformer的Bert等开源模型的启发。“在生物学技术能力方面,如分子生物学,我们仍然很像GPT 0.5,”他说。
数据和反馈循环仍然具有挑战性
蛋白质数据的稀缺性阻碍了这些模型的开发速度,尤其是与用互联网上所有可用信息训练GPT模型相比时。“在公开数据上训练这些模型真的很难。这也是为什么我们有自己的内部实验室,以便为这些机器学习模型构建有效的训练集,使它们能够更快地学习,”Grieken说。
这些模型的反馈循环缓慢也阻碍了进展。Grieken将这个过程与GPT模型进行比较,在GPT模型中,如果生成的结果错误、糟糕或正确,可以立即获得反馈,从而有助于立即训练模型。“在我们的情况下,从生成事物到结果返回需要三个月的时间,”他说。此外,生成结果的成本很高,每个数据点的成本可能在30美元到1000美元之间。
让世界变得更美好
Cradle解决了与医学研究相关的许多现实世界问题,特别是在时间、成本和物流可及性方面。由于冷藏和分销网络的问题,许多疫苗在世界各地难以分发。
“如果你能开发出在常温下可以保存的某些药物,你就可以将它们带到世界上的更多地方,这很有帮助,因此你最终可以得到一个更好的产品,”Grieken说。
Grieken还认为,如果用于治愈疾病或摆脱石油化学产品转向更多生物基产品的解决方案所需的时间和资金减少,那么这类产品将大量涌入市场。
拥有在谷歌这样的大型科技公司工作的丰富经验,Grieken建议每个人都应该在大型科技公司工作一段时间,然后在积累了一定的学习经验后再去创建其他的东西。
“我非常感激谷歌。首先,他们教你如何做工程。其次,我很幸运在谷歌工作,那时语言模型开始崭露头角,”Grieken说,他认为自己能在早期阶段参与进去非常幸运。
Cradle已经筹集了总计2970万美元的资金,并在荷兰阿姆斯特丹和瑞士苏黎世设有两个办事处。