英文

Data2Vec-Vision (大尺寸模型,仅预训练)

BEiT 模型在 ImageNet-1k(100 万张图像,1000 类)数据集上以自我监督的方式进行了预训练,分辨率为 224x224。该模型由 Alexei Baevski、Wei-Ning Hsu、Qiantong Xu、Arun Babu、Jiatao Gu、Michael Auli 在 data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language 论文中提出,并在 this repository 中首次发布。

免责声明:Facebook 团队发布了该模型,但并未为该模型编写模型卡片,因此这份模型卡片是由 Hugging Face 团队编写的。

预训练方法

更多信息,请参阅 official paper

摘要

虽然跨模态的自我监督学习的一般思想是相同的,但实际的算法和目标因为它们是为单一模态开发的而有很大不同。为了使我们更接近通用自监督学习,我们提出了 data2vec,这是一个框架,它对语音、自然语言处理或计算机视觉使用相同的学习方法。核心思想是在自我蒸馏的设置中,使用标准 Transformer 架构,基于输入的屏蔽视图预测完整输入数据的潜在表示。data2vec 不是预测特定模态的目标,如单词、视觉标记或人类语音的单元,其本质上是预测包含来自整个输入的信息的上下文化潜在表示。在语音识别、图像分类和自然语言理解的主要基准测试上的实验结果表明,data2vec 取得了新的技术水平或与主导方法竞争的性能。

预期使用和限制

您可以使用原始模型进行图像分类。请参阅 model hub ,以查找您感兴趣的任务的微调版本。

训练数据

BEiT 模型在包含 1.2 百万张图像和 1k 类的数据集 ImageNet-1k 上进行了预训练。

训练过程

预处理

有关在训练/验证过程中图像的预处理的详细信息,请参阅 here

图像被调整大小/重缩放为相同的分辨率(224x224),并在 RGB 通道上以平均值(0.5, 0.5, 0.5)和标准偏差(0.5, 0.5, 0.5)进行标准化。

预训练

有关所有与预训练相关的超参数,请参考 original paper original codebase

评估结果

有关几个图像分类基准测试的评估结果,请参阅原论文的表 1。请注意,对于微调,最佳结果是以更高的分辨率获得的。当然,增加模型规模将导致更好的性能。

BibTeX 记录和引用信息

@misc{https://doi.org/10.48550/arxiv.2202.03555,
  doi = {10.48550/ARXIV.2202.03555},
  url = {https://arxiv.org/abs/2202.03555},
  author = {Baevski, Alexei and Hsu, Wei-Ning and Xu, Qiantong and Babu, Arun and Gu, Jiatao and Auli, Michael},
  keywords = {Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language},
  publisher = {arXiv},
  year = {2022},
  copyright = {arXiv.org perpetual, non-exclusive license}
}