数据集:
OATML-Markslab/ProteinGym
预印本库:
arxiv:2205.13760ProteinGym是一个广泛的深度突变扫描(DMS)测定集合,旨在使不同情况下的各种突变效果预测器进行全面比较。它包括两个基准:1)替代基准,包括对87个DMS测定中的约1.5M个错义变异进行实验表征;2)插入/删除(indel)基准,包括对7个DMS测定中的约300k个突变体进行实验表征。
每个基准中的每个处理文件都对应一个单独的DMS测定,并包含以下三个变量:
此外,我们提供两个参考文件(ProteinGym_reference_file_substitutions.csv和ProteinGym_reference_file_indels.csv),其中提供了关于每个测定的进一步详细信息,特别包括:
如果您在工作中使用了ProteinGym,请引用以下论文:
Notin, P., Dias, M., Frazer, J., Marchena-Hurtado, J., Gomez, A., Marks, D.S., Gal, Y. (2022). Tranception: Protein Fitness Prediction with Autoregressive Transformers and Inference-time Retrieval. ICML.