GIT（GenerativeImage2Text）- 在TextVQA上进行了大规模、经过微调的模型

GIT（GenerativeImage2Text）模型是在TextVQA上进行了微调的大规模版本。该模型由Wang等人在 GIT: A Generative Image-to-text Transformer for Vision and Language 中提出，并在 this repository 中首次发布。

免责声明：发布GIT的团队没有为该模型撰写模型卡片，因此这个模型卡片是由Hugging Face团队编写的。

模型描述

GIT是一个基于CLIP图像令牌和文本令牌的Transformer解码器。训练模型时使用"teacher forcing"方法处理大量（图像，文本）对。

该模型的目标仅是在给定图像令牌和先前文本令牌的情况下，预测下一个文本令牌。

模型完全可以访问（即在图像令牌上使用双向注意掩码），但只能在预测下一个文本令牌时访问先前的文本令牌（即在文本令牌上使用因果注意掩码）。

这使得该模型可以用于以下任务：

图像和视频标题
图像和视频的视觉问答（VQA）
甚至图像分类（通过将模型条件设置为图像，并要求其以文本生成一个类别）。

预期用途和局限

您可以使用原始模型进行视觉问答（VQA）。请参阅 model hub 以查找您感兴趣的任务的微调版本。

使用方法

有关代码示例，请参考 documentation 。

训练数据

根据论文：

我们收集了80亿个图像文本对进行预训练，其中包括COCO（Lin et al., 2014），概念标题CC3M（Sharma et al., 2018），SBU（Ordonez et al., 2011），Visual Genome（VG）（Krishna et al., 2016），概念标题CC12M（Changpinyo et al., 2021），ALT200M（Hu et al., 2021a）以及Hu等人（2021a）中类似收集程序的额外60亿个数据。

=> 然而，这是指论文中称为"GIT"的模型，未开源。

这个检查点是"GIT-large"，它是在2000万个图像文本对上训练的GIT的较小变体。

接下来，该模型在TextVQA上进行了微调。

有关更多详细信息，请参阅 paper 中的表11。

预处理

关于训练期间的预处理详细信息，请参考原始代码库。

在验证期间，将对每个图像的较短边进行调整大小，然后进行中心裁剪以固定分辨率。接下来，使用ImageNet的平均值和标准差对RGB通道进行归一化。

评估结果

有关评估结果，请参阅 paper 。

作者:

Microsoft

数据集大小:

1.47 GB