模型:
timm/vit_large_patch14_clip_336.openai
CLIP模型是OpenAI的研究人员开发的,旨在了解计算机视觉任务的稳健性。该模型还被用于测试模型以零样本方式推广到任意图像分类任务的能力。它并不用于通用模型部署 - 要部署像CLIP这样的模型,研究人员首先需要仔细研究其与特定环境之间的能力关系。
这个CLIP模型实例适用于以下类库:
请参考 https://huggingface.co/openai/clip-vit-large-patch14-336 以在Hugging Face Transformers中使用。
2021年1月
该模型使用ViT-L/14 (336x336) Transformer架构作为图像编码器,并使用带有遮蔽的自注意力Transformer作为文本编码器。这些编码器通过对比损失函数来最大化(图像,文本)对的相似性。原始实现有两个变种:一个使用ResNet图像编码器,另一个使用Vision Transformer。这个资料库中有使用Vision Transformer的变种。
该模型旨在成为研究社区的研究成果。我们希望这个模型能够帮助研究人员更好地理解和探索零样本、任意图像分类。我们还希望它能够用于跨学科研究,以了解此类模型的潜在影响 - 《CLIP》论文中提供了一个将此类分析作为示例的潜在下游影响讨论。
主要预期使用者这些模型的主要预期用户是AI研究人员。我们主要认为研究人员将使用该模型来更好地理解计算机视觉模型的稳健性、泛化能力和其他能力、偏见和限制。
目前,模型的任何部署用途 - 不论是商业用途还是其他用途 - 都不在范围之内。除非对模型进行了特定的、固定的类别分类的领域测试,否则也不建议在受限环境中使用非部署用途,如图像搜索。这是因为我们的安全评估表明,尤其是考虑到CLIP在不同类别分类中的性能变化,当前任何用例中未经测试和不受限制的部署可能具有潜在的危害性。无论模型的性能如何,监控和人脸识别等属于监控领域的用例始终超出范围。这是因为目前使用人工智能进行此类任务可能过早,缺乏测试规范和确保其公平使用的检查机制。由于该模型没有经过专门训练或评估其他语言的能力,因此其使用应仅限于英语语言用例。
该模型是在公开可用的图像说明数据上进行训练的。这通过组合从一些网站中爬取和使用常用的现有图像数据集(如 YFCC100M )来实现。其中一大部分数据来自我们对互联网的爬取。这意味着数据更能代表与互联网连接最紧密的人群和社会,这些人群往往倾向于发达国家和年轻的男性用户。
我们构建该数据集的目标是测试计算机视觉任务的稳健性和泛化能力。因此,重点是从不同的公开可用互联网数据源收集大量的数据。数据是以一种基本上非干预的方式收集的。然而,我们只爬取了那些有过度暴力和成人图像限制政策,并允许我们筛选出此类内容的网站。我们不打算将该数据集用作任何商业或已部署模型的基础,并不会发布该数据集。
CLIP及其相关分析具有许多限制。CLIP目前在某些任务(如细粒度分类和物体计数)方面存在困难。CLIP在公平性和偏见方面也存在问题,我们在论文中进行了讨论,并在下一部分简要涉及。此外,我们对测试CLIP的方法也有一个重要限制 - 在许多情况下,我们使用线性探测器来评估CLIP的性能,而有证据表明线性探测器可能低估了模型的性能。
我们发现CLIP的性能 - 以及其展示出的特定偏见 - 可能在类别设计和选择包括和排除的分类方面有很大差异。我们测试了CLIP对来自 Fairface 的人物图像进行犯罪相关和非人类动物分类时对种族和性别的差异风险。我们发现在类别构建方式不同的情况下存在显著差异。(详细信息在论文的更广泛影响部分中记录)。我们还使用Fairface数据集对CLIP在性别、种族和年龄分类方面的性能进行了测试(我们默认使用Fairface数据集中构建的种族类别)以评估不同人口群体的性能质量。对于性别分类,所有种族的准确率均>96%,其中“中东人”准确率最高(98.4%),而“白人”最低(96.5%)。此外,CLIP在种族分类方面的平均准确率约为93%,年龄分类方面约为63%。我们使用对性别、种族和年龄分类以及贬低性伤害进行评估仅仅是为了评估模型在不同人群中的性能并凸显潜在风险,并不意味着对此类任务的认可/热衷。