GIT (GenerativeImage2Text)，基于COCO精细调优的大型模型

GIT（GenerativeImage2Text）模型是大型版本，通过对COCO进行精细调优而得到的。它由 Wang 等人在 GIT: A Generative Image-to-text Transformer for Vision and Language 论文中提出，并首次在 this repository 中发布。

免责声明：发布 GIT 模型的团队未为该模型编写模型卡片，因此该模型卡片由 Hugging Face 团队编写。

模型描述

GIT 是一个基于 CLIP 图像令牌和文本令牌的 Transformer 解码器。通过大量的（图像、文本）对进行"teacher forcing" 训练模型。

模型的目标是在给定图像令牌和先前文本令牌的情况下，预测下一个文本令牌。

模型可以完全访问（即使用双向注意力掩码）图像块令牌，但在预测下一个文本令牌时，模型仅有先前文本令牌的访问权限（即使用因果注意力掩码）。

图片百科

这使得模型可以用于以下任务：

图像和视频字幕
图像和视频的视觉问答（VQA）
甚至图像分类（只需将模型与图像关联并要求以文本生成其类别）

预期用途及限制

您可以使用原始模型进行图像字幕生成。有兴趣的话，可以查看 model hub ，寻找感兴趣任务的经过微调的版本。

使用方法

有关代码示例，请参考 documentation 。

训练数据

根据论文：

我们收集了0.8B个图像-文本对进行预训练，其中包括 COCO（Lin 等，2014年），Conceptual Captions（CC3M）（Sharma 等，2018年），SBU（Ordonez 等，2011年），Visual Genome（VG）（Krishna 等，2016年），Conceptual Captions（CC12M）（Changpinyo 等，2021年），ALT200M（Hu 等，2021a年），以及在 Hu 等（2021a年）中遵循类似收集过程的额外0.6B数据。

=> 但是这是论文中所称的“GIT”模型，它未公开源代码。

这个检查点是“GIT-large”，它是在2000万个图像-文本对上训练而得到的GIT的较小变种。

接下来，该模型在COCO上进行了精细调优。

有关详细信息，请参阅 paper 中的表格11。

预处理

有关训练期间的预处理细节，请参考原始代码库。

在验证期间，将每个图像的较短边调整大小，然后进行中心裁剪以达到固定分辨率大小。接下来，根据 ImageNet 的均值和标准差对帧在 RGB 通道上进行归一化。

评估结果

如需评估结果，请参阅 paper 。

作者:

Microsoft

数据集大小:

2.94 GB