Convolutional Vision Transformer (CvT)

CvT-21 模型在 ImageNet-1k 数据集上进行了预训练，分辨率为 224x224. 该模型在 Wu 等人的论文 CvT: Introducing Convolutions to Vision Transformers 中首次提出，并在 this repository 中首次发布。

免责声明：发布 CvT 的团队未为该模型编写模型卡片，因此该模型卡片由 Hugging Face 团队撰写。

使用方法

以下是如何使用此模型将 COCO 2017 数据集中的图像分类为 1,000 个 ImageNet 类别之一：

from transformers import AutoFeatureExtractor, CvtForImageClassification
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = AutoFeatureExtractor.from_pretrained('microsoft/cvt-21')
model = CvtForImageClassification.from_pretrained('microsoft/cvt-21')

inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# model predicts one of the 1000 ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

```

作者:

Microsoft

数据集大小:

242.82 MB