模型:

openai/clip-vit-large-patch14

任务:

零样本图像分类

类库:

PyTorch TensorFlow JAX Transformers

其他:

clip vision

预印本库:

arxiv:2103.00020 arxiv:1908.04913

模型介绍文件清单

英文

模型卡片: CLIP

免责声明: 模型卡片是从官方CLIP存储库中获取并修改的，可以找到 here 。

模型详情

CLIP模型是OpenAI研究人员开发的，用于学习计算机视觉任务中导致鲁棒性的因素。该模型还用于测试模型在零样本方式下对任意图像分类任务的泛化能力。它并非为了普遍的模型部署而开发 - 要部署像CLIP这样的模型，研究人员首先需要仔细研究其与特定上下文之间的能力关系。

模型日期

2021年1月

模型类型

基本模型使用ViT-L/14 Transformer架构作为图像编码器，并使用掩码自注意Transformer作为文本编码器。这些编码器经过训练，通过对比损失最大化（图像，文本）对的相似性。

原始实现有两个变体：一个使用ResNet图像编码器，另一个使用Vision Transformer。这个存储库是Vision Transformer的变体。

文档

与Transformers一起使用

from PIL import Image
import requests

from transformers import CLIPProcessor, CLIPModel

model = CLIPModel.from_pretrained("openai/clip-vit-large-patch14")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-large-patch14")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)

outputs = model(**inputs)
logits_per_image = outputs.logits_per_image # this is the image-text similarity score
probs = logits_per_image.softmax(dim=1) # we can take the softmax to get the label probabilities

模型使用

预期使用

该模型旨在成为研究社区的研究成果。我们希望这个模型能够使研究人员更好地理解和探索零样本、任意图像分类的能力、偏见和约束等方面。我们还希望它可以用于跨学科研究，以探索这种模型的潜在影响 - CLIP论文包括对潜在下游影响的讨论，为这种分析提供了一个例子。

主要预期用途

这些模型的主要预期用户是AI研究人员。

我们主要认为，研究人员将使用该模型来更好地理解计算机视觉模型的鲁棒性、泛化性和其他能力、偏见和约束。

超出范围的用例

目前超出范围的任何模型部署用例，无论是商业用途还是非商业用途，都不推荐。除非对特定的、固定的类别分类系统进行了充分的域内测试，否则也不建议在受限环境中使用诸如图像搜索之类的未经测试和受限制的用例。这是因为我们的安全评估显示，特定任务的测试非常需要，尤其是考虑到CLIP在不同类别分类系统下性能的变化。这使得目前在任何用例中未经测试且无约束地部署模型可能具有潜在危害性。

许多与监视和面部识别相关的用例始终超出范围，无论模型的性能如何。这是因为目前使用人工智能进行此类任务可能过早，因缺乏测试规范和确保其公平使用的检查。

由于该模型没有经过有意进行任何除英语以外的语言的训练或评估，因此其使用应仅限于英语语言用例。

数据

该模型是在公开可用的图像标题数据上进行训练的。这是通过对少数网站进行爬取和使用常用的现有图像数据集（例如 YFCC100M ）的组合来完成的。数据的大部分来自我们对互联网的爬取。这意味着数据更能代表与互联网连接最紧密的人和社会，这些人群倾向于更发达的国家和年轻的男性用户。

数据任务声明

我们构建此数据集的目标是测试计算机视觉任务的鲁棒性和泛化性。因此，重点是从不同的公开可用互联网数据源中收集大量数据。数据以一种大多非干预的方式收集。但是，我们只爬取了有着过度暴力和成人图像政策并允许我们过滤此类内容的网站。我们不打算将此数据集用作任何商业或部署模型的基础，并且不会释放数据集。

性能和限制

性能

我们在各种计算机视觉数据集上评估了CLIP的性能，例如OCR、纹理识别和细粒度分类。该论文描述了模型在以下数据集上的性能：

Food101
CIFAR10
CIFAR100
Birdsnap
SUN397
Stanford Cars
FGVC Aircraft
VOC2007
DTD
Oxford-IIIT宠物数据集
Caltech101
Flowers102
MNIST
SVHN
IIIT5K
Hateful Memes
SST-2
UCF101
Kinetics700
Country211
CLEVR Counting
KITTI Distance
STL-10
RareAct
Flickr30
MSCOCO
ImageNet
ImageNet-A
ImageNet-R
ImageNet Sketch
ObjectNet（ImageNet重叠）
Youtube-BB
ImageNet-Vid

限制

CLIP及其对其的分析存在一些限制。CLIP目前在某些任务（如细粒度分类和对象计数）方面存在困难。CLIP还在公平性和偏见方面存在问题，我们在论文中进行了讨论，并在下一节中简要介绍了这些问题。此外，我们对测试CLIP的方法也存在重要限制 - 在许多情况下，我们使用线性探测来评估CLIP的性能，并且有证据表明线性探测可能低估模型的性能。

偏见和公平性

我们发现CLIP的性能 -以及其表现出的特定偏见- 可以显著取决于类别设计和选择哪些类别包含和排除的选择。我们通过将人物图像从 Fairface 分类为与犯罪相关和非人类动物类别，测试了CLIP的某些类型的贬低风险。我们发现在种族和性别方面存在显著差异。此外，我们发现这些差异可能根据类别的构造方式而变化。（详细内容在论文的更广泛影响部分中提到）。

我们还使用Fairface数据集对CLIP在性别、种族和年龄分类上的性能进行了测试（我们默认使用Fairface数据集中构建的种族类别）。我们发现对于性别分类，所有种族的准确率 > 96%，而“中东人”具有最高准确率（98.4%），而“白人”具有最低准确率（96.5%）。此外，CLIP在种族分类方面平均达到了约93%，在年龄分类方面平均达到了约63%。我们对性别、种族和年龄分类以及贬低性行为的评估仅用于评估模型在人们中的性能，并揭示潜在风险，并不意味着对此类任务的认可/热情。

反馈

提问或对模型发表评论的位置

请使用 this Google Form

作者:

OpenAI

数据集大小:

4.78 GB