英文

GIT (GenerativeImage2Text),基于COCO精细调优的大型模型

GIT(GenerativeImage2Text)模型是大型版本,通过对COCO进行精细调优而得到的。它由 Wang 等人在 GIT: A Generative Image-to-text Transformer for Vision and Language 论文中提出,并首次在 this repository 中发布。

免责声明:发布 GIT 模型的团队未为该模型编写模型卡片,因此该模型卡片由 Hugging Face 团队编写。

模型描述

GIT 是一个基于 CLIP 图像令牌和文本令牌的 Transformer 解码器。通过大量的(图像、文本)对进行"teacher forcing" 训练模型。

模型的目标是在给定图像令牌和先前文本令牌的情况下,预测下一个文本令牌。

模型可以完全访问(即使用双向注意力掩码)图像块令牌,但在预测下一个文本令牌时,模型仅有先前文本令牌的访问权限(即使用因果注意力掩码)。

图片百科

这使得模型可以用于以下任务:

  • 图像和视频字幕
  • 图像和视频的视觉问答(VQA)
  • 甚至图像分类(只需将模型与图像关联并要求以文本生成其类别)

预期用途及限制

您可以使用原始模型进行图像字幕生成。有兴趣的话,可以查看 model hub ,寻找感兴趣任务的经过微调的版本。

使用方法

有关代码示例,请参考 documentation

训练数据

根据论文:

我们收集了0.8B个图像-文本对进行预训练,其中包括 COCO(Lin 等,2014年),Conceptual Captions(CC3M)(Sharma 等,2018年),SBU(Ordonez 等,2011年),Visual Genome(VG)(Krishna 等,2016年),Conceptual Captions(CC12M)(Changpinyo 等,2021年),ALT200M(Hu 等,2021a年),以及在 Hu 等(2021a年)中遵循类似收集过程的额外0.6B数据。

=> 但是这是论文中所称的“GIT”模型,它未公开源代码。

这个检查点是“GIT-large”,它是在2000万个图像-文本对上训练而得到的GIT的较小变种。

接下来,该模型在COCO上进行了精细调优。

有关详细信息,请参阅 paper 中的表格11。

预处理

有关训练期间的预处理细节,请参考原始代码库。

在验证期间,将每个图像的较短边调整大小,然后进行中心裁剪以达到固定分辨率大小。接下来,根据 ImageNet 的均值和标准差对帧在 RGB 通道上进行归一化。

评估结果

如需评估结果,请参阅 paper