英文

GIT (GenerativeImage2Text),大型,R*

*R 表示 "通过删除cc12m数据集中的一些冒犯性标题重新训练"。

GIT(即GenerativeImage2Text)模型,是大型版本。它是由王等人在 GIT: A Generative Image-to-text Transformer for Vision and Language 论文中介绍并首次发布于 this repository

免责声明:发布GIT模型的团队没有为此模型编写模型卡,因此此模型卡是由Hugging Face团队编写的。

模型描述

GIT是一个基于CLIP图像标记和文本标记之间关系的Transformer解码器。该模型使用"teacher forcing"在大量的(图像、文本)对上进行训练。

模型的目标就是在给定图像标记和前文本标记的情况下,预测下一个文本标记。

该模型能够完全访问图像块标记(即使用双向注意力掩码)并且只能在预测下一个文本标记时访问前文本标记(即使用因果注意力掩码)。

这使得该模型可用于以下任务:

  • 图像和视频字幕
  • 图像和视频的视觉问答(VQA)
  • 甚至图像分类(只需将模型置于图像之上,并要求它生成相应的文本类别)。

预期用途和限制

您可以使用原始模型进行图像字幕生成。有关您感兴趣任务的精调版本,请参考 model hub

如何使用

有关代码示例,请参阅 documentation

训练数据

根据论文:

我们收集了0.8B的图像-文本对进行预训练,其中包括COCO(Lin等人,2014)、概念字幕(CC3M)(Sharma等人,2018)、SBU(Ordonez等人,2011)、Visual Genome(VG)(Krishna等人,2016)、概念字幕(CC12M)(Changpinyo等人,2021)、ALT200M(Hu等人,2021a),以及按照Hu等人(2021a)中类似的数据收集过程收集的额外0.6B数据。

=> 然而,这是论文中所提到的名为"GIT"的模型,并没有开源。

这个检查点是"GIT-large",是在2000万图像-文本对上训练的GIT的一个较小变体。

有关详细信息,请参见 paper 中的表11。

预处理

有关训练期间预处理的详细信息,请参阅原始存储库。

在验证期间,将调整每个图像的较短边的大小,然后进行中心裁剪至固定分辨率。接下来,通过使用ImageNet的均值和标准差对帧在RGB通道上进行归一化。

评估结果

有关评估结果,请参阅 paper