BEiT（基础尺寸模型，经过ADE20k微调）

BEiT模型在ImageNet-21k（1400万图片，21841个类别）上以自监督的方式进行预训练，分辨率为224x224，并在ADE20k上以640x640的分辨率进行了调优（一个重要的图像语义分割基准）。该模型由鲍航博、董立和魏复明在《一种新的图像分割模型》的论文中首次发布。

注意：BEiT团队尚未为此模型撰写模型卡，所以本模型卡是由Hugging Face团队编写的。

模型描述

BEiT模型是一种视觉Transformer（ViT），它是一种变形器编码器模型（类似于BERT）。与原始的ViT模型不同，BEiT模型以自监督的方式在一个大型图像集合ImageNet-21k上进行预训练，分辨率为224x224像素。模型的预训练目标是基于OpenAI的DALL-E的VQ-VAE的编码器中的掩码路径预测视觉标记。接下来，模型以监督的方式在ImageNet上进行了微调（也称为ILSVRC2012），该数据集包含100万张图片和1000个类别，同样以224x224的分辨率。

图像以固定尺寸的补丁序列（16x16的分辨率）呈现给模型，该序列经过线性嵌入。与原始的ViT模型相反，BEiT模型使用相对位置嵌入（类似于T5），而不是绝对位置嵌入，并且通过对补丁的最终隐藏状态进行平均池化来执行图像分类，而不是在最终隐藏状态的[CLS]标记上放置线性层。

通过对模型进行预训练，它学习了一种图像的内部表示，这可以用于提取对下游任务有用的特征：对于语义分割，可以只需在＜模型链接＞中添加一个可用的解码头之一，并以监督方式在带注释的图像上微调模型。这就是作者所做的：他们使用一个UperHead分割解码头来微调BEiT模型，从而在ADE20k和CityScapes等重要基准上获得SOTA结果。

预期用途和限制

您可以使用原始模型进行图像的语义分割。请参阅链接处有关您感兴趣的任务的微调版本。

使用方法

以下是使用此模型进行语义分割的方法：

目前，特征提取器和模型都支持PyTorch。

训练数据

该BEiT模型在包含1400万张图片和21k个类别的数据集上进行了预训练，并在包含数千张注释图片和150个类别的数据集上进行了微调。

训练过程

预处理

有关训练/验证期间图像预处理的确切细节，请参见链接。

图像被裁剪和填充到相同的分辨率（640x640），并根据ImageNet的均值和标准差进行RGB通道的归一化。

预训练

有关所有与预训练相关的超参数，请参阅原始论文的第15页。

评估结果

有关几个图像分类基准的评估结果，请参阅原始论文的表1和表2。请注意，对于微调，最佳结果是在更高的分辨率（384x384）下获得的。当然，增加模型大小将获得更好的性能。

BibTeX条目和引用信息

作者:

Microsoft

数据集大小:

858.23 MB