模型:

microsoft/xclip-base-patch32

英文

X-CLIP(基础尺寸模型)

X-CLIP模型(base-sized,32个片段分辨率)在 Kinetics-400 上进行完全监督训练。该模型是由Ni等人在 Expanding Language-Image Pretrained Models for General Video Recognition 论文中提出,并在 this repository 中首次发布。

该模型使用每个视频的8帧,分辨率为224x224进行训练。

声明:发布X-CLIP的团队未为此模型编写模型卡,因此这个模型卡是由Hugging Face团队编写的。

模型描述

X-CLIP是对 CLIP 进行通用视频-语言理解的简单扩展。该模型以对比方式在(视频,文本)对上进行训练。

这使得该模型可以用于零-shot、少-shot或完全监督的视频分类和视频-文本检索等任务。

预期用途和限制

可以使用原始模型来确定文本与给定视频的匹配程度。查看 model hub 以寻找在您感兴趣的任务上进行精调的版本。

使用方法

有关示例代码,请参见 documentation

训练数据

该模型是在 Kinetics-400 上进行训练的。

预处理

有关训练期间预处理的详细信息,请参见 here

有关验证期间预处理的详细信息,请参见 here

在验证期间,将每个帧的较短边调整大小,然后执行中心裁剪到固定分辨率(如224x224)。接下来,对RGB通道进行ImageNet均值和标准差的归一化处理。

评估结果

该模型的Top-1准确率达到80.4%,Top-5准确率达到95.0%。