模型:

microsoft/git-base-textcaps

英文

GIT (GenerativeImage2Text),基于TextCaps的基准尺寸精调版

GIT(即GenerativeImage2Text)模型,基于TextCaps进行了基准尺寸的精调。该模型由Wang等人在论文 GIT: A Generative Image-to-text Transformer for Vision and Language 中介绍,并于 this repository 首次发布。

免责声明:发布GIT的团队未为此模型编写模型卡片,因此本模型卡片由Hugging Face团队撰写。

模型描述

GIT是一个Transformer解码器,其条件是CLIP图像令牌和文本令牌。该模型使用“teacher forcing”在大量(图像,文本)对上进行训练。

模型的目标是根据图像令牌和先前的文本令牌预测下一个文本令牌。

在预测下一个文本令牌时,模型完全访问(即使用双向注意力掩码)图像补丁令牌,但只能访问先前的文本令牌(即使用因果性注意力掩码)。

这使得该模型可用于以下任务:

  • 图像和视频字幕
  • 图像和视频的视觉问答(VQA)
  • 甚至图像分类(通过简单地将模型置于图像上并要求其生成相应的文本分类)。

预期的用途和限制

您可以使用原始模型进行图像字幕。请查看 model hub 以查找您感兴趣的任务的经过精调的版本。

如何使用

关于代码示例,我们参考 documentation

训练数据

根据论文:

我们采集了80亿个图像-文本对进行预训练,包括COCO(Lin et al。,2014),Conceptual Captions(CC3M)(Sharma et al。,2018),SBU(Ordonez et al。,2011),Visual Genome(VG)(Krishna et al。,2016),Conceptual Captions(CC12M)(Changpinyo et al。,2021),ALT200M(Hu et al。,2021a),以及在Hu et al。(2021a)中采用类似的收集过程额外的60亿个数据。

=> 然而,这是针对论文中所指的未开源的“GIT”模型。

此检查点为“GIT-base”,是在1000万个图像-文本对上训练的GIT的较小变体。

接下来,模型在TextCaps上进行了精调。

更多详细信息,请参见 paper 中的表11。

预处理

有关训练期间的预处理细节,请参考原始存储库。

在验证期间,将每个图像的较短边调整大小,然后进行中心裁剪以固定大小分辨率。接下来,通过ImageNet的平均值和标准差对RGB通道进行归一化。

评估结果

关于评估结果,我们请读者参考 paper