模型:

microsoft/swinv2-large-patch4-window12-192-22k

英文

Swin Transformer v2 (大型模型)

Swin Transformer v2 模型在 ImageNet-21k 数据集上进行了预训练,分辨率为 192x192。该模型由Liu等人在 Swin Transformer V2: Scaling Up Capacity and Resolution 中介绍,并于 this repository 首次发布。

免责声明:发布 Swin Transformer v2 的团队未为该模型撰写模型卡片,因此本模型卡片是由 Hugging Face 团队撰写的。

模型描述

Swin Transformer 是一种 Vision Transformer 类型。它通过在较深层次上合并图像块(灰色表示)来构建分层特征图,并且由于仅在每个局部窗口(红色表示)上计算自注意力,因此具有与输入图像大小线性计算复杂度。因此,它可以作为图像分类和密集识别任务的通用骨干模型。相反,先前的 Vision Transformer 生成单一低分辨率特征图,并且由于全局计算自注意力,其计算复杂度与输入图像大小呈二次关系。

Swin Transformer v2 添加了3个主要改进:1) 结合余弦注意力的残差后归一化方法,提高训练稳定性;2) 对数间隔连续位置偏差方法,有效地将使用低分辨率图像进行预训练的模型转移到具有高分辨率输入的下游任务;3) 自监督预训练方法 SimMIM,减少对大量标记图像的需求。

Source

预期用途与限制

您可以使用原始模型进行图像分类。请参阅 model hub 查找您感兴趣的任务的微调版本。

如何使用

以下是如何使用此模型将 COCO 2017 数据集中的图像分类为 21k 个 ImageNet 类别之一的示例:

from transformers import AutoImageProcessor, AutoModelForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained("microsoft/swinv2-large-patch4-window12-192-22k")
model = AutoModelForImageClassification.from_pretrained("microsoft/swinv2-large-patch4-window12-192-22k")

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# model predicts one of the 21k ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

有关更多代码示例,可以参考 documentation

BibTeX条目和引用信息

@article{DBLP:journals/corr/abs-2111-09883,
  author    = {Ze Liu and
               Han Hu and
               Yutong Lin and
               Zhuliang Yao and
               Zhenda Xie and
               Yixuan Wei and
               Jia Ning and
               Yue Cao and
               Zheng Zhang and
               Li Dong and
               Furu Wei and
               Baining Guo},
  title     = {Swin Transformer {V2:} Scaling Up Capacity and Resolution},
  journal   = {CoRR},
  volume    = {abs/2111.09883},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.09883},
  eprinttype = {arXiv},
  eprint    = {2111.09883},
  timestamp = {Thu, 02 Dec 2021 15:54:22 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-09883.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}