英文

GIT(GenerativeImage2Text),基于基本尺寸的

GIT(GenerativeImage2Text的缩写)模型,基于基本尺寸的版本。它于 GIT: A Generative Image-to-text Transformer for Vision and Language 年由Wang等人在论文中提出,首次发布于 this repository 年。

免责声明:发布GIT的团队没有为该模型编写模型卡片,因此此模型卡片是由Hugging Face团队编写的。

模型描述

GIT是一个Transformer解码器,其条件是CLIP图像标记和文本标记。该模型使用大量(图像、文本)对上的"teacher forcing"进行训练。

该模型的目标仅是根据图像标记和前一个文本标记来预测下一个文本标记。

该模型完全可以访问(即对图像补丁标记使用双向注意力遮罩),但在预测下一个文本标记时,它只能访问先前的文本标记(即对文本标记使用因果关注遮罩)。

这使得该模型可用于以下任务:

  • 图像和视频字幕
  • 图像和视频视觉问答(VQA)
  • 甚至图像分类(通过简单地将模型与图像相关联,并要求它以文本生成类别)。

预定用途和限制

您可以使用原始模型进行图像字幕。请查看 model hub 以查找您感兴趣的任务的微调版本。

如何使用

有关代码示例,请参阅 documentation

训练数据

来自论文:

我们收集了8亿个图像-文本对进行预训练,其中包括COCO(Lin等,2014年),概念字幕(CC3M)(Sharma等,2018年),SBU(Ordonez等,2011年),视觉基因组(VG)(Krishna等,2016年),概念字幕(CC12M)(Changpinyo等,2021年),ALT200M(Hu等,2021a),以及根据Hu等(2021年)中的相似收集过程额外的6亿数据。

=>但这是论文中提到的“GIT”模型,该模型没有开源。

此检查点是“GIT-base”,是在1000万个图像-文本对上训练的GIT的较小变体。

有关详细信息,请参见 paper 中的表11。

预处理

关于训练期间的预处理详细信息,请参考原始存储库。

在验证期间,将调整每个图像的较短边,然后进行中心裁剪以达到固定尺寸的分辨率。接下来,通过使用ImageNet的均值和标准差对RGB通道进行归一化处理。

评估结果

有关评估结果,请参阅 paper