模型:

microsoft/git-large-textvqa

英文

GIT(GenerativeImage2Text)- 在TextVQA上进行了大规模、经过微调的模型

GIT(GenerativeImage2Text)模型是在TextVQA上进行了微调的大规模版本。该模型由Wang等人在 GIT: A Generative Image-to-text Transformer for Vision and Language 中提出,并在 this repository 中首次发布。

免责声明:发布GIT的团队没有为该模型撰写模型卡片,因此这个模型卡片是由Hugging Face团队编写的。

模型描述

GIT是一个基于CLIP图像令牌和文本令牌的Transformer解码器。训练模型时使用"teacher forcing"方法处理大量(图像,文本)对。

该模型的目标仅是在给定图像令牌和先前文本令牌的情况下,预测下一个文本令牌。

模型完全可以访问(即在图像令牌上使用双向注意掩码),但只能在预测下一个文本令牌时访问先前的文本令牌(即在文本令牌上使用因果注意掩码)。

这使得该模型可以用于以下任务:

  • 图像和视频标题
  • 图像和视频的视觉问答(VQA)
  • 甚至图像分类(通过将模型条件设置为图像,并要求其以文本生成一个类别)。

预期用途和局限

您可以使用原始模型进行视觉问答(VQA)。请参阅 model hub 以查找您感兴趣的任务的微调版本。

使用方法

有关代码示例,请参考 documentation

训练数据

根据论文:

我们收集了80亿个图像文本对进行预训练,其中包括COCO(Lin et al., 2014),概念标题CC3M(Sharma et al., 2018),SBU(Ordonez et al., 2011),Visual Genome(VG)(Krishna et al., 2016),概念标题CC12M(Changpinyo et al., 2021),ALT200M(Hu et al., 2021a)以及Hu等人(2021a)中类似收集程序的额外60亿个数据。

=> 然而,这是指论文中称为"GIT"的模型,未开源。

这个检查点是"GIT-large",它是在2000万个图像文本对上训练的GIT的较小变体。

接下来,该模型在TextVQA上进行了微调。

有关更多详细信息,请参阅 paper 中的表11。

预处理

关于训练期间的预处理详细信息,请参考原始代码库。

在验证期间,将对每个图像的较短边进行调整大小,然后进行中心裁剪以固定分辨率。接下来,使用ImageNet的平均值和标准差对RGB通道进行归一化。

评估结果

有关评估结果,请参阅 paper