模型:

timm/vit_base_patch16_clip_224.openai

英文

CLIP (OpenAI模型 for timm)

模型详情

CLIP模型是OpenAI研究人员开发的,旨在了解何为计算机视觉任务的鲁棒性。该模型还用于测试模型以零样本的方式泛化到任意图像分类任务的能力。它不是为了一般模型部署而开发的 - 要部署类似于CLIP的模型,研究人员首先需要仔细研究其在特定上下文中的能力。

CLIP模型的此实例旨在于以下库进行加载:

有关在Hugging Face Transformers中使用的内容,请参见 https://huggingface.co/openai/clip-vit-base-patch16

模型日期

2021年1月

模型类型

该模型使用ViT-B/16 Transformer架构作为图像编码器,并使用遮蔽自注意力Transformer作为文本编码器。这些编码器通过对比损失函数进行训练,以最大化(图像,文本)对的相似性。原始实现有两个变体:一个使用ResNet图像编码器,另一个使用Vision Transformer。该存储库包含了使用Vision Transformer的变体。

文档

模型用途

预期用途

该模型旨在作为研究机构的研究成果输出。我们希望这个模型能够帮助研究人员更好地理解和探索零样本、任意图像分类。我们还希望它能用于对此类模型潜在影响的跨学科研究 - CLIP论文中包括对潜在下游影响的讨论,以提供此类分析的示例。

主要的预期用户是AI研究人员。我们主要想象模型将由研究人员使用,以更好地理解计算机视觉模型的鲁棒性、泛化性和其他能力、偏差和限制。

不适用的用例

目前所有已部署的模型用例 - 无论是商业用途还是非商业用途 - 都超出了范围。除非对具有特定、固定类别分类体系的模型进行了彻底的领域内测试,否则不建议使用未经测试和无约束的模型进行图像搜索等非部署用例。这是因为我们的安全评估表明,鉴于CLIP在不同的类别分类体系下的性能变化,当前对模型进行任何用例的未经测试和无约束部署可能会带来潜在风险。无论模型的性能如何,始终超出范围的某些用例,例如监视和人脸识别。这是因为目前在这些任务中使用人工智能可能是过早的,因为缺乏测试规范和确保其公平使用的检查机制。由于模型没有经过有针对性的训练或评估其他语言(英语以外),其使用应限制在英语语言用例中。

数据

该模型是基于公开可用的图像-标题数据进行训练的。这是通过抓取一些网站并使用常用的现有图像数据集(如 YFCC100M )的方式完成的。数据的很大一部分来自于我们对互联网的抓取。这意味着数据更具代表性,偏向于互联网连接最多、发达国家和年轻男性用户。

数据使命宣言

我们构建这个数据集的目标是为了测试计算机视觉任务中的鲁棒性和泛化性。因此,重点是从不同的公开可用的互联网数据源收集大量数据。数据的收集主要是以非干预方式进行的。但是,我们只抓取了那些有反对过度暴力和成人内容的网站,并允许我们过滤这些内容。我们不打算将此数据集用作任何商业或部署模型的基础,并且不会发布该数据集。

限制

CLIP及其对其的分析具有一些限制。CLIP在某些任务(如细粒度分类和物体计数)方面存在困难。CLIP还在公正性和偏倚方面存在问题,我们在论文中进行了讨论,并在下一章节中简要讨论。此外,我们对测试CLIP的方法也有一个重要限制 - 在很多情况下,我们使用线性探测来评估CLIP的性能,并有证据表明线性探测可能会低估模型的性能。

偏倚和公正性

我们发现CLIP的性能 - 以及其表现出的特定偏见 - 可能会显著取决于类别设计以及对包含和排除的类别的选择。我们通过将来自 Fairface 人的图像分类为与犯罪相关和非动物类别,测试了CLIP在与此类任务相关的贬低风险方面的风险。我们发现在种族和性别方面存在显著差异。此外,我们发现这些差异可能会随着类别构建的方式的改变而发生变化。(详细信息请参见论文中的更广泛影响部分)。我们还使用Fairface数据集(我们默认使用Fairface数据集中的构建的种族类别)对CLIP在性别、种族和年龄分类上的性能进行了测试,以评估不同人群中的性能质量。我们发现所有种族的性别分类准确率为96%以上,其中“中东”种族的准确率最高(98.4%),而“白人”种族的准确率最低(96.5%)。此外,CLIP在种族分类方面的平均准确率约为93%,在年龄分类方面的准确率约为63%。我们使用评估来测试性别、种族和年龄分类以及贬低伤害,仅仅是为了评估模型在人群中的性能并发现潜在风险,而不是为了表明对此类任务的认可/热情。