ESM-1b

ESM-1b（ paper ， repository ）是一种基于变压器的蛋白质语言模型，经过无标签监督的蛋白质序列数据进行训练。该模型在Uniref50上进行了预训练，采用了无监督的掩码语言建模（MLM）目标，意味着模型被训练来预测周围序列上的氨基酸。这种预训练目标使得ESM-1b能够学习一般有用的特征，这些特征可以转移到下游的预测任务中。ESM-1b已经在与蛋白质结构和功能相关的各种任务中进行了评估，包括远程同源性检测、二级结构预测、接触预测和突变对功能影响的预测，取得了最先进的结果。

重要提示：现在提供ESM-2的多种检查点大小。对于大多数任务而言，ESM-2的性能优于ESM-1和ESM-1b，因此我们建议除非明确需要与ESM-1b进行比较，否则应使用ESM-2。ESM-2与ESM-1b最接近的检查点大小为 esm2_t33_650M_UR50D 。

模型描述

ESM-1b模型基于 RoBERTa 架构和训练程序，使用Uniref50 2018_03的蛋白质序列数据库。请注意，预训练仅针对原始蛋白质序列。训练是纯无监督的--在训练过程中，没有提供与结构或功能相关的标签。

训练采用了掩码语言建模目标。屏蔽遵循 Devlin et al. 2019 的过程，随机屏蔽输入中的15%氨基酸，并包括穿透和随机令牌噪声。与RoBERTa模型的一个架构区别是ESM-1b使用了 pre-activation layer normalization 。

获取的表示可以用作下游任务的特征。例如，如果您有一个蛋白质活性测量数据集，可以在ESM-1b输出的特征上拟合回归模型，以预测新序列的活性。该模型还可以进行微调。

ESM-1b可以无需进一步的监督推断出蛋白质的结构和功能，即它能够进行零-shot转移结构和功能预测。 Rao et al. 2020 发现ESM-1b的注意力头直接代表蛋白质三维结构中的接触。 Meier et al. 2021 发现ESM-1b可以用于评分蛋白质功能上的序列变异。

预期用途和限制

该模型可用于特征提取，在下游任务上进行微调，或直接用于对蛋白质序列的结构和功能进行推断，就像其他掩码语言模型一样。有关完整的示例，请参阅 our notebook on fine-tuning protein models 。

训练数据

ESM-1b模型是在约3,000万蛋白质序列的 Uniref50 2018-03上进行预训练的。

训练程序

预处理

蛋白质序列被大写并使用单个空格进行标记，词汇表大小为21.然后，模型的输入形式如下：

<cls> Protein Sequence A

在训练过程中，长度超过1023个标记（不包括CLS）的序列将被随机裁剪为长度为1023的序列。

每个序列的屏蔽过程的详细信息遵循Devlin等，2019年的方法：

15%的氨基酸被屏蔽。
在80%的情况下，被屏蔽的氨基酸被替换为。
在10%的情况下，被屏蔽的氨基酸被随机氨基酸（不同于被替换的氨基酸）替换。
在剩余的10%中，被屏蔽的氨基酸保持不变。

预训练

该模型在128个NVIDIA v100 GPU上进行了50万次更新的训练，使用序列长度1024（每批131,072个标记）。使用的优化器是Adam（betas=[0.9, 0.999]），学习率为1e-4，权重衰减为0，学习率预热16k步，并在学习率之后进行反比例的平方根衰减。

作者:

Meta AI

数据集大小:

4.86 GB