模型:

timm/vit_base_patch32_clip_224.openai

英文

CLIP(用于 timm 的 OpenAI 模型)

模型详情

CLIP 模型是由 OpenAI 的研究人员开发的,旨在了解对计算机视觉任务的鲁棒性有何贡献。该模型还用于测试模型以零-shot 方式对任意图像分类任务的泛化能力。它并非为了一般模型部署而开发 - 要部署像 CLIP 这样的模型,研究人员首先需要在具体的上下文中仔细研究它们的能力。

此 CLIP 模型实例适用于加载在

有关在 Hugging Face Transformers 中使用的信息,请参见 https://huggingface.co/openai/clip-vit-base-patch32

模型日期

2021年1月

模型类型

该模型使用 ViT-B/32 Transformer 架构作为图像编码器,并使用遮蔽的自注意 Transformer 作为文本编码器。通过对比损失来训练这些编码器以最大化(图像、文本)对的相似性。原始实现有两个变体:一个使用 ResNet 图像编码器,另一个使用 Vision Transformer。该存储库提供了基于 Vision Transformer 的变体。

文档

模型用途

预期用途

该模型旨在作为研究社区的研究成果。我们希望该模型能够使研究人员更好地了解和探索零-shot、任意图像分类。我们还希望它可以用于对此类模型潜在影响的跨学科研究 - CLIP 论文包含了一个潜在影响的讨论,为此类分析提供了一个示例。

主要预期用途

这些模型的主要预期用户是 AI 研究人员。我们主要想象该模型将被研究人员用于更好地理解计算机视觉模型的鲁棒性、泛化性和其他能力、偏见和约束。

超出范围的用例

目前,模型的任何部署用例(无论是商业用例还是非商业用例)都超出了范围。未部署的用例,例如在受限环境下的图像搜索,也不建议,除非对模型进行了彻底的领域内测试,使用了特定的、固定的类别分类法。这是因为我们的安全评估表明,特定任务的测试特别需要,特别是考虑到 CLIP 在不同类别分类法上的性能变化。这使得当前对模型进行未经测试和不受限制的部署可能具有潜在的危害。无论模型的性能如何,属于监视和面部识别领域的某些用例始终超出范围。这是因为目前使用人工智能进行此类任务可能还为时过早,缺乏测试规范和确保其公平使用的检查机制。由于该模型没有经过有目的地在英语以外的任何语言上进行训练或评估,因此其使用应限于英语语言用例。

数据

模型是根据公开可用的图像字幕数据进行训练的。这通过抓取一些网站和使用常用的现有图像数据集(如 YFCC100M )的组合来实现。其中大部分数据来自我们对互联网的抓取。这意味着数据更能代表与互联网连接最紧密的人类和社会,这些人类和社会倾向于偏向发达国家和年轻的男性用户。

数据任务陈述

我们构建此数据集的目标是在计算机视觉任务中测试鲁棒性和泛化能力。因此,重点是从不同的公开可用互联网数据源中收集大量数据。数据的收集主要以非干预方式进行。但是,我们只爬取了有着反对过度暴力和成人图像的政策并允许我们过滤此类内容的网站。我们不打算将该数据集用作任何商业或已部署模型的基础,并且不会发布该数据集。

限制

CLIP 及其相关分析存在一些限制。CLIP 在某些任务(如细粒度分类和物体计数)方面存在困难。CLIP 在公平性和偏见方面也存在问题,我们在论文中进行了讨论,并在下一节中简要介绍了这些问题。此外,我们测试 CLIP 的方法还存在一个重要限制 - 在许多情况下,我们使用线性探测来评估 CLIP 的性能,而有证据表明线性探测可能低估模型的性能。

偏见和公平性

我们发现 CLIP 的性能 - 以及它展示的特定偏见 - 可能会严重依赖于类别设计和对包含和排除的类别的选择。我们通过将来自 Fairface 的人物图像分类为与犯罪相关和非人类动物类别,测试了 CLIP 的某些形式的贬损风险。我们发现在种族和性别方面存在显着的差异。此外,我们发现这些差异可能会根据类别的构建方式而变化。(有关详细信息,请参见论文中的更广泛影响部分)。我们还使用 Fairface 数据集对 CLIP 在性别、种族和年龄分类方面的性能进行了测试(我们默认使用 Fairface 数据集中构造的种族类别)。结果显示,对于性别分类,所有种族的准确率 > 96%,其中“中东”准确率最高(98.4%),而“白人”最低(96.5%)。此外,CLIP 对于种族分类的平均准确率约为 93%,对于年龄分类的准确率约为 63%。我们对性别、种族和年龄分类以及贬损危害的评估仅仅是为了评估模型在不同人群中的性能并提出潜在风险,并不意味着对此类任务的认可/热情。