模型:

microsoft/swinv2-base-patch4-window12-192-22k

英文

Swin Transformer v2(小型模型)

Swin Transformer v2模型是在ImageNet-21k数据集上以192x192分辨率进行预训练的。它是由Liu等人在 Swin Transformer V2: Scaling Up Capacity and Resolution 论文中提出的,并于 this repository 首次发布。

免责声明:发布Swin Transformer v2的团队并未为该模型编写模型卡,因此Hugging Face团队编写了本模型卡。

模型描述

Swin Transformer是一种Vision Transformer。它通过在较深的层中合并图像块(显示为灰色)来构建分层特征图,并且由于仅在每个局部窗口(显示为红色)内计算自注意力,因此具有线性计算复杂度,可适用于图像分类和密集识别任务的通用骨干。相比之下,以前的Vision Transformer产生单一低分辨率的特征图,并且由于在全局计算自注意力,其计算复杂度与输入图像大小呈二次关系。

Swin Transformer v2增加了三项主要改进:1)将残差-后规范方法与余弦注意力相结合,以提高训练稳定性;2)使用对数间隔连续位置偏差方法,有效地将预训练使用低分辨率图像的模型转移到具有高分辨率输入的下游任务;3)使用自监督预训练方法SimMIM以减少对大量标记图像的需求。

Source

预期用途和局限性

您可以使用原始模型进行图像分类。查看 model hub ,以寻找您感兴趣的任务的微调版本。

如何使用

以下是如何使用此模型将COCO 2017数据集中的图像分类为21k ImageNet类之一的方法:

from transformers import AutoImageProcessor, AutoModelForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained("microsoft/swinv2-base-patch4-window12-192-22k")
model = AutoModelForImageClassification.from_pretrained("microsoft/swinv2-base-patch4-window12-192-22k")

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# model predicts one of the 21k ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

有关更多代码示例,请参阅 documentation

BibTeX条目和引用信息

@article{DBLP:journals/corr/abs-2111-09883,
  author    = {Ze Liu and
               Han Hu and
               Yutong Lin and
               Zhuliang Yao and
               Zhenda Xie and
               Yixuan Wei and
               Jia Ning and
               Yue Cao and
               Zheng Zhang and
               Li Dong and
               Furu Wei and
               Baining Guo},
  title     = {Swin Transformer {V2:} Scaling Up Capacity and Resolution},
  journal   = {CoRR},
  volume    = {abs/2111.09883},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.09883},
  eprinttype = {arXiv},
  eprint    = {2111.09883},
  timestamp = {Thu, 02 Dec 2021 15:54:22 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-09883.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}