模型:

microsoft/git-base-coco

英文

GIT(GenerativeImage2Text), 基础版,在COCO上经过微调

GIT(GenerativeImage2Text)模型是一个基于CLIP图像令牌和文本令牌的Transformer解码器。该模型使用“teacher forcing”在许多(图像,文本)对上进行训练。

模型的目标是根据图像令牌和先前的文本令牌预测下一个文本令牌。

模型可以完全访问(即,用于图像令牌使用双向注意力掩码),但仅能访问先前的文本令牌(即,当预测下一个文本令牌时使用因果注意力掩码)。

这使得模型可用于任务如下:

  • 图像和视频字幕
  • 图像和视频上的视觉问答(VQA)
  • 甚至图片分类(仅需将模型与图像结合并要求其生成相应的文本类别)。

若要使用raw模型进行图像字幕,可以查看感兴趣的任务的微调版本。

关于如何使用的代码示例,请参见相关链接。

训练数据来自于文献中的描述:我们收集了80亿个图像-文本对进行预训练,包括COCO(Lin et al.,2014),Conceptual Captions(CC3M)(Sharma et al.,2018),SBU(Ordonez et al.,2011),Visual Genome(VG)(Krishna et al.,2016),Conceptual Captions(CC12M)(Changpinyo et al.,2021),ALT200M(Hu et al.,2021a)以及另外6亿个数据,遵循了Hu et al.(2021a)中的类似收集过程。

然而,这是指论文中所称的未开源的"GIT"模型。

此检查点是"GIT-base",它是在1000万个图像-文本对上训练的GIT的较小变体。

接下来,模型在COCO上进行了微调。

有关预处理的详细信息,请参考原始存储库。

在验证过程中,会调整每个图像的较短边,然后进行中心裁剪以达到固定分辨率。接下来,使用ImageNet的均值和标准差对帧在RGB通道上进行归一化。

关于评估结果,请参考相关链接。