模型:

microsoft/git-large-r-coco

英文

GIT(GenerativeImage2Text),基于COCO的大型fine-tuning模型,R*

R = 移除cc12m数据集中的一些不良描述并重新训练

GIT(GenerativeImage2Text)模型是基于COCO进行fine-tuning的大型模型。它是由Wang等人在 GIT: A Generative Image-to-text Transformer for Vision and Language 论文中介绍并首次发布的。

免责声明:发布GIT模型的团队并未为该模型编写模型卡片,因此这个模型卡片是由Hugging Face团队编写的。

模型描述

GIT是一个Transformer解码器,其条件是CLIP图像标记和文本标记。该模型使用“teacher forcing”在大量的(图像,文本)对上进行训练。

该模型的目标是根据图像标记和前一个文本标记来预测下一个文本标记。

该模型可以完全访问图像补丁标记(即使用双向注意掩码),但在预测下一个文本标记时,它只能访问先前的文本标记(即使用因果注意掩码)。

这使得该模型可用于以下任务:

  • 图像和视频描述
  • 图像和视频的视觉问答(VQA)
  • 甚至图像分类(通过简单地将模型与图像关联并要求其生成相应的文本类别)

预期用途和限制

您可以使用原始模型进行图像描述。有关您感兴趣任务的fine-tuning版本,请参阅 model hub

如何使用

有关代码示例,请参阅 documentation

训练数据

从论文中得知:

我们收集了80亿个图像-文本对进行预训练,其中包括COCO(Lin et al., 2014),Conceptual Captions(CC3M)(Sharma et al., 2018),SBU(Ordonez et al., 2011),Visual Genome(VG)(Krishna et al., 2016),Conceptual Captions(CC12M)(Changpinyo et al., 2021),ALT200M(Hu et al., 2021a)以及根据Hu et al.(2021a)中的类似收集流程额外收集的60亿个数据点。

=> 然而,这适用于论文中称为"GIT"的模型,该模型未开源。

此检查点是"GIT-large",是在2000万个图像-文本对上训练的GIT的较小变种。

接下来,该模型在COCO上进行了fine-tuning。

有关更多详细信息,请参阅 paper 中的表11。

预处理

有关训练期间的预处理详细信息,请参阅原始代码库。

在验证过程中,将每个图像的较短边调整大小,然后进行中心裁剪以得到固定大小的分辨率。接下来,使用ImageNet的均值和标准偏差对RGB通道进行归一化。

评估结果

有关评估结果,请参阅 paper