GIT（GenerativeImage2Text）基于MSRVTT-QA的基于Base尺寸的微调

GIT（GenerativeImage2Text）模型，基于Base尺寸的版本，经过MSRVTT-QA微调。该模型由Wang等人在论文 GIT: A Generative Image-to-text Transformer for Vision and Language 中介绍，并于 this repository 首次发布。

免责声明：发布GIT的团队未为该模型撰写模型卡片，因此此模型卡片由Hugging Face团队编写。

模型描述

GIT是一个基于Transformer解码器的模型，其条件是CLIP图像令牌和文本令牌。该模型通过"teacher forcing"在许多（图像，文本）对上进行训练。

模型的目标是根据图像令牌和先前的文本令牌来预测下一个文本令牌。

模型完全访问（即使用双向注意力掩码）图像补丁令牌，但在预测下一个文本令牌时，只能访问先前的文本令牌（即使用因果注意力掩码）。

这使得该模型可用于任务，如：

图像和视频字幕
图像和视频上的视觉问答（VQA）
甚至图像分类（只需将模型与图像相关联，并要求它生成相应的文本类）

预期用途和限制

您可以将原始模型用于视频问答（QA）。有关感兴趣任务的微调版本，请参阅 model hub 。

使用方式

有关代码示例，请参阅 documentation 。

训练数据

根据论文：

我们收集了80亿个图像文本对进行预训练，其中包括COCO（Lin et al.，2014），概念说明（CC3M）（Sharma et al.，2018），SBU（Ordonez et al.，2011），视觉基因组（VG）（Krishna等 al.，2016），概念说明（CC12M）（Changpinyo等，2021），ALT200M（Hu等，2021a），以及按照Hu等人（2021a）的类似收集过程收集的额外60亿个数据。

=> 但是这是指论文中称为"GIT"的模型，该模型没有开源。

此检查点为"GIT-base"，是在1000万个图像文本对上训练的GIT的较小变体。

接下来，该模型在MSRVTT-QA上进行了微调。

有关详细信息，请参阅 paper 中的表11。

预处理

有关训练期间预处理的详细信息，请参考原始存储库。

在验证期间，将每个图像的较短边缘调整大小，然后进行中心裁剪以获得固定分辨率大小。接下来，使用ImageNet的均值和标准差对RGB通道进行归一化。

评估结果

有关评估结果，请参阅 paper 。

作者:

Microsoft

数据集大小:

674.78 MB