英文

vit_large_patch14_clip_336.laion2b_ft_in1k 模型简介

这是一个视觉Transformer(ViT)图像分类模型。它是在OpenCLIP中使用LAION-2B图像-文本对进行预训练的,并在ImageNet-1k上进行了微调。timm中的recipes提供了详细信息。

模型细节

  • 模型类型:图像分类/特征主干
  • 模型统计信息:
    • 参数(M):304.5
    • GMACs:174.7
    • 激活(M):128.2
    • 图像尺寸:336 x 336
  • 论文:
    • OpenCLIP:
    • 可复现的对比语言-图像学习规律:
    • LAION-5B:用于训练下一代图像-文本模型的开放大规模数据集:
    • 一个图像相当于16x16个单词:用于大规模图像识别的Transformer:
  • 数据集:ImageNet-1k
  • 预训练数据集:
    • LAION-2B

模型用途

图像分类

图像嵌入

模型比较

在timm中探索此模型的数据集和运行时指标:

引用