vit_large_patch14_clip_336.laion2b_ft_in1k 模型简介
这是一个视觉Transformer(ViT)图像分类模型。它是在OpenCLIP中使用LAION-2B图像-文本对进行预训练的,并在ImageNet-1k上进行了微调。timm中的recipes提供了详细信息。
模型细节
- 模型类型:图像分类/特征主干
- 模型统计信息:
- 参数(M):304.5
- GMACs:174.7
- 激活(M):128.2
- 图像尺寸:336 x 336
- 论文:
- OpenCLIP:
- 可复现的对比语言-图像学习规律:
- LAION-5B:用于训练下一代图像-文本模型的开放大规模数据集:
- 一个图像相当于16x16个单词:用于大规模图像识别的Transformer:
- 数据集:ImageNet-1k
- 预训练数据集:
模型用途
图像分类
图像嵌入
模型比较
在timm中探索此模型的数据集和运行时指标:
引用