数据集:

OATML-Markslab/ProteinGym

预印本库:

arxiv:2205.13760
英文

ProteinGym基准概述

ProteinGym是一个广泛的深度突变扫描(DMS)测定集合,旨在使不同情况下的各种突变效果预测器进行全面比较。它包括两个基准:1)替代基准,包括对87个DMS测定中的约1.5M个错义变异进行实验表征;2)插入/删除(indel)基准,包括对7个DMS测定中的约300k个突变体进行实验表征。

每个基准中的每个处理文件都对应一个单独的DMS测定,并包含以下三个变量:

  • mutant(str):
    • 对于替代基准,它描述了用于获得突变序列的参考序列上要应用的替代集合(例如,A1P:D2N意味着替换位置1处的氨基酸'A'为'P',并且替换位置2处的氨基酸'D'为'N')
    • 对于插入/删除基准,它对应于完整的突变序列
  • DMS_score(float):对应于DMS测定中的实验测量。在所有测定中,DMS_score值越高,突变蛋白的适应性越高
  • DMS_score_bin(int):指示DMS_score是否高于适应性阈值(1表示适应,0表示不适应)
  • 此外,我们提供两个参考文件(ProteinGym_reference_file_substitutions.csv和ProteinGym_reference_file_indels.csv),其中提供了关于每个测定的进一步详细信息,特别包括:

    • 相应蛋白质的UniProt_ID,以及分类信息:taxon和MSA depth category
    • 测定中使用的目标序列(target_seq)
    • 有关如何从原始文件创建DMS_score以及如何将其二值化的详细信息

    参考文献

    如果您在工作中使用了ProteinGym,请引用以下论文:

    Notin, P., Dias, M., Frazer, J., Marchena-Hurtado, J., Gomez, A., Marks, D.S., Gal, Y. (2022). Tranception: Protein Fitness Prediction with Autoregressive Transformers and Inference-time Retrieval. ICML.
    

    链接