模型:

laion/CLIP-ViT-B-16-laion2B-s34B-b88K

任务:

零样本图像分类

类库:

OpenCLIP

预印本库:

arxiv:1910.04867

许可:

mit

模型介绍文件清单

英文

CLIP ViT-B/16 - LAION-2B 模型卡片

模型详情

模型描述

CLIP ViT-B/16 模型使用 LAION-2B 英文子集训练的 LAION-5B 数据（ https://laion.ai/blog/laion-5b/ ），使用 OpenCLIP（ https://github.com/mlfoundations/open_clip ）进行训练。

模型训练由Mehdi Cherti在 JUWELS Booster 超级计算机上完成。详细信息请参见下面的致谢。

用途

与原始模型一样，此模型旨在为研究社区提供研究成果。我们希望该模型能帮助研究人员更好地理解和探索零样本、任意图像分类，并希望能用于跨学科研究，以评估此类模型的潜在影响。

OpenAI CLIP论文中提供了潜在下游影响的讨论，作为此类分析的示例。此外，LAION-5B博客（ https://laion.ai/blog/laion-5b/ ）和即将发布的论文中还包括与训练数据集相关的其他讨论。

直接使用

零样本图像分类、图像和文本检索等。

下游使用

图像分类和其他图像任务微调、线性探针图像分类、图像生成指导和条件约束等。

超出使用范围

根据OpenAI模型的规定，

目前超出模型的部署用例（无论是商业用途还是非商业用途）都不在范围之内。未经测试和约束的非部署用例，如受限环境中的图像搜索，也不建议使用，除非对模型进行了特定固定类别分类法的深入域内测试。这是因为我们的安全评估表明，特定任务的测试尤为重要，特别是考虑到CLIP在不同类别分类法下的性能变化。目前，未经测试和无约束地在任何用例中部署该模型可能具有潜在危害。

与监控和人脸识别相关的特定用例无论如何都超出范围，无论模型的性能如何。这是因为目前在这些任务中使用人工智能可能过早，缺乏测试标准和确保其公平使用的检查机制。

由于该模型并未经过有目的地在除英语以外的任何语言上进行训练或评估，因此其使用应仅限于英语语境下的用例。

除上述声明外，用于训练这些模型的LAION-5B数据集还有其他注意事项，请参见下文。

训练详情

训练数据

该模型是使用LAION-5B的20亿个采样的英文子集进行训练的（ https://laion.ai/blog/laion-5b/ ）。

重要说明：数据集创建的动机是为了使大规模多模态模型训练和处理未经筛选的大规模数据集（从公开可用的互联网上爬取）的研究和实验民主化。因此，我们建议将数据集用于研究目的。请注意，该大规模数据集是未经筛选的。请记住，数据集的未经筛选性意味着收集到的链接可能导致对人类观众来说非常令人不安和令人困扰的内容。因此，请谨慎使用演示链接，自担风险。可以通过基于安全标签进行样本过滤（使用我们构建的自定义训练的NSFW分类器）来提取“安全”子集。虽然这大大减少了在查看时遇到潜在有害内容的可能性，但不能完全排除在安全模式下仍可能存在有害内容的可能性，所以此警告仍然适用。我们认为，公开向广大研究和其他感兴趣的社区提供数据集将允许透明地研究大规模模型训练带来的益处，以及在使用仅限于小型社区的封闭大型数据集时可能未报告或未注意到的陷阱和危险。然而，提供我们的数据集并不推荐将其用于创建成品工业产品，因为我们此次发布的基础研究是关于此类大规模模型的一般属性和安全性的研究，目前仍在进行中。

训练过程

待定

评估

使用 LAION CLIP Benchmark suite 中的代码进行评估。

测试数据、因素和指标

测试数据

使用VTAB+进行分类测试（VTAB结合附加的鲁棒性数据集），使用COCO和Flickr进行检索测试。

结果

该模型在ImageNet-1k上实现了70.2％的零样本top-1精度。

已在更广泛的数据集范围上进行了初步的基准测试，目前可以在 https://github.com/LAION-AI/CLIP_benchmark/blob/main/benchmark/results.ipynb 上查看。

致谢

感谢Gauss Centre for Supercomputing e.V.（ http://gauss-centre.eu ）通过John von Neumann Computing (NIC)在Jülich Supercomputing Centre (JSC)的JUWELS Booster上提供计算时间资助此工作的一部分。

引用

BibTeX:

LAION-5B

@inproceedings{schuhmann2022laionb,
  title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
  author={Christoph Schuhmann and
          Romain Beaumont and
          Richard Vencu and
          Cade W Gordon and
          Ross Wightman and
          Mehdi Cherti and
          Theo Coombes and
          Aarush Katta and
          Clayton Mullis and
          Mitchell Wortsman and
          Patrick Schramowski and
          Srivatsa R Kundurthy and
          Katherine Crowson and
          Ludwig Schmidt and
          Robert Kaczmarczyk and
          Jenia Jitsev},
  booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
  year={2022},
  url={https://openreview.net/forum?id=M3Y74vmsMcY}
}

OpenAI CLIP paper

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

OpenCLIP software

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}

作者:

LAION eV

数据集大小:

1.12 GB