模型:

microsoft/git-large-textcaps

英文

GIT(GenerativeImage2Text), 在TextCaps上进行了大规模fine-tuned

GIT(GenerativeImage2Text)模型,大型版本,在TextCaps上进行了fine-tuned。该模型由Wang等人在 GIT: A Generative Image-to-text Transformer for Vision and Language 论文中提出,并于 this repository 首次发布。

免责声明:发布GIT的团队没有为该模型撰写模型卡,因此这个模型卡是由Hugging Face团队编写的。

模型描述

GIT是一个Transformer解码器,其条件是CLIP图像token和文本token。该模型使用“teacher forcing”在许多(图像,文本)对上进行训练。

该模型的目标仅是在给定图像token和前一个文本token的情况下预测下一个文本token。

该模型完全可以访问图像补丁标记(即为图像补丁标记使用了双向注意力掩码),但仅在预测下一个文本token时可以访问前一个文本token(即为文本token使用了因果性注意力掩码)。

这使得该模型可以用于以下任务:

  • 图像和视频字幕
  • 图像和视频的视觉问答(VQA)
  • 甚至可以通过简单地将模型条件设置为图像并要求其生成与之对应的文本类别来进行图像分类。

预期的用途和限制

您可以使用原始模型进行图像字幕。请查看 model hub 以查找您感兴趣的任务的fine-tuned版本。

如何使用

有关代码示例,请参阅 documentation

训练数据

从论文中获取:

我们收集了80亿个图像文本对进行预训练,其中包括COCO(Lin等人,2014年),概念字幕(CC3M)(Sharma等人,2018年),SBU(Ordonez等人,2011年),视觉基因组(VG)(Krishna等人,2016年),概念字幕(CC12M)(Changpinyo等人,2021年),ALT200M(Hu等人,2021a年)以及在Hu等人(2021a年)中使用类似的数据收集程序获得的额外的60亿数据。

=> 但是,这适用于论文中所指的“GIT”模型,该模型未开源。

此检查点是“GIT-large”,它是在2000万图像文本对上训练的GIT的较小变体。

接下来,模型在TextCaps上进行了fine-tuned。

有关详细的预处理信息,请参考原始存储库。

在验证期间,将调整每个图像的较短边,然后对其进行固定大小的中心裁剪。然后,通过ImageNet的均值和标准差对RGB通道进行归一化。

评估结果

有关评估结果,请参阅 paper