GIT（GenerativeImage2Text）, 基础版，在COCO上经过微调

GIT（GenerativeImage2Text）模型是一个基于CLIP图像令牌和文本令牌的Transformer解码器。该模型使用“teacher forcing”在许多（图像，文本）对上进行训练。

模型的目标是根据图像令牌和先前的文本令牌预测下一个文本令牌。

模型可以完全访问（即，用于图像令牌使用双向注意力掩码），但仅能访问先前的文本令牌（即，当预测下一个文本令牌时使用因果注意力掩码）。

这使得模型可用于任务如下：

图像和视频字幕
图像和视频上的视觉问答（VQA）
甚至图片分类（仅需将模型与图像结合并要求其生成相应的文本类别）。

若要使用raw模型进行图像字幕，可以查看感兴趣的任务的微调版本。

关于如何使用的代码示例，请参见相关链接。

训练数据来自于文献中的描述：我们收集了80亿个图像-文本对进行预训练，包括COCO（Lin et al.，2014），Conceptual Captions(CC3M)（Sharma et al.，2018），SBU（Ordonez et al.，2011），Visual Genome（VG）（Krishna et al.，2016），Conceptual Captions（CC12M）（Changpinyo et al.，2021），ALT200M（Hu et al.，2021a）以及另外6亿个数据，遵循了Hu et al.（2021a）中的类似收集过程。

然而，这是指论文中所称的未开源的"GIT"模型。

此检查点是"GIT-base"，它是在1000万个图像-文本对上训练的GIT的较小变体。

接下来，模型在COCO上进行了微调。

有关预处理的详细信息，请参考原始存储库。

在验证过程中，会调整每个图像的较短边，然后进行中心裁剪以达到固定分辨率。接下来，使用ImageNet的均值和标准差对帧在RGB通道上进行归一化。

关于评估结果，请参考相关链接。

作者:

Microsoft

数据集大小:

674.76 MB