模型:
timm/vit_large_patch14_clip_224.openai
CLIP 模型是 OpenAI 的研究人员开发的,旨在了解对计算机视觉任务中的鲁棒性有何贡献。该模型还用于测试模型以零样本方式推广到任意图像分类任务的能力。它并非为了一般模型部署而开发,要部署像 CLIP 这样的模型,研究人员首先需要仔细研究其与特定上下文之间的能力。
此 CLIP 模型的实例适用于加载 timm( https://github.com/rwightman/pytorch-image-models )和 OpenCLIP( https://github.com/mlfoundations/open_clip )库。
有关在 Hugging Face Transformers 中使用的信息,请参阅 https://huggingface.co/openai/clip-vit-large-patch14 。
2021年1月
该模型使用 ViT-L/14 Transformer 架构作为图像编码器,并使用掩码自注意力 Transformer 作为文本编码器。这些编码器通过对比损失函数训练,以最大程度上增加(图像、文本)对的相似性。原始实现有两个变体:一个使用 ResNet 图像编码器,另一个使用 Vision Transformer。此存储库中的变体使用 Vision Transformer。
该模型旨在成为研究社区的研究成果。我们希望该模型能够让研究人员更好地理解和探索零样本、任意图像分类。我们也希望它能够用于跨学科研究,以评估此类模型的潜在影响 - CLIP 论文中包含了一份对此类分析的示例讨论。
主要拟合用途:这些模型的主要用户是人工智能研究人员。我们主要想象这些模型将被研究人员用于更好地理解计算机视觉模型的鲁棒性、泛化性和其他能力、偏差和限制。
目前不适用于模型的任何部署用例 - 无论商业用途与否。未部署的用例,如在有限环境中进行图像搜索,也不建议,除非对模型进行了特定的、固定类别校验的域内测试。这是因为我们的安全评估显示,考虑到 CLIP 在不同类别分类中的性能差异,目前在任何用例中未经测试和无约束地部署该模型可能具有潜在的危害性。无论模型的性能如何,始终将监控和面部识别等用例视为不适用领域。这是因为目前对于此类任务使用人工智能可能过早,缺乏测试规范和确保其公平使用的检查。
由于该模型并未经过有目的地对英语以外的任何语言进行训练或评估,因此其使用应限制在英语语言用例中。
该模型是在公开可用的图像描述数据上进行训练的。这通过结合抓取少量网站和使用常用的现有图像数据集(如 YFCC100M )来完成的。数据的很大一部分来自我们对互联网的抓取。这意味着数据更具代表性的是与互联网连接最紧密的人群和社会,这些人群倾向于更发达的国家和年轻的男性用户。
我们构建此数据集的目标是测试计算机视觉任务的鲁棒性和一般化性。因此,重点是从不同的公开可用互联网数据源中收集大量数据。数据的收集基本上是一种非干预性的方式。然而,我们只抓取那些具有针对过度暴力和成人图像的政策并允许我们过滤此类内容的网站。我们不打算将该数据集用作任何商业或部署的模型的基础,并且不会发布该数据集。
CLIP 和我们对其的分析具有一些限制。CLIP 目前在某些任务(如细粒度分类和物体计数)方面存在困难。CLIP 还存在公平性和偏差方面的问题,我们在论文中进行了讨论,并在下一部分中进行了简要介绍。此外,我们对测试 CLIP 的方法还存在一个重要的限制 - 在许多情况下,我们使用线性探测器来评估 CLIP 的性能,而有证据表明线性探测器可能低估模型的性能。
我们发现 CLIP 的性能 - 以及它表现出的特定偏见 - 可能会严重取决于类别设计和选择的类别的方式。我们通过将人们的图像从 Fairface 分类为犯罪相关和非动物类别来测试 CLIP 的某些类型贬低风险。我们发现在种族和性别方面存在显著的差异。此外,我们发现这些差异可能会随着类别的组织方式而改变(具体详见论文中的更广泛影响章节)。我们还使用 Fairface 数据集对 CLIP 在性别、种族和年龄分类方面进行了测试(我们默认使用 Fairface 数据集中构建的种族类别),以评估不同人口群体的性能质量。我们发现所有种族的性别分类准确率均 >96%,其中“中东”种族的准确率最高(98.4%),而“白人”种族的准确率最低(96.5%)。此外,CLIP 的种族分类平均为 ~93%,年龄分类平均为 ~63%。我们使用评估来测试性别、种族和年龄分类以及贬低伤害,只是为了评估模型在不同人群中的性能并发现潜在风险,并不意味着对这些任务的认可/热衷。