模型:

microsoft/xclip-large-patch14-16-frames

英文

X-CLIP(大型模型)

X-CLIP模型(大型,分辨率为14的补丁)在 Kinetics-400 上进行了完全监督的训练。它是由Ni等人在 Expanding Language-Image Pretrained Models for General Video Recognition 论文中介绍并于 this repository 首次发布的。

该模型使用16帧视频进行训练,分辨率为336x336。

免责声明:发布X-CLIP的团队没有为这个模型编写模型卡片,因此这个模型卡片是由Hugging Face团队编写的。

模型描述

X-CLIP是 CLIP 在通用视频-语言理解上的最小扩展。模型以对比的方式在(视频,文本)对上进行训练。

这使得该模型可以用于零样本、少样本或完全监督的视频分类和视频-文本检索等任务。

使用目标和限制

您可以使用原始模型来确定文本与给定视频的匹配程度。请参阅 model hub ,了解您感兴趣任务的微调版本。

如何使用

有关代码示例,请参考 documentation

训练数据

该模型使用 Kinetics-400 进行了训练。

预处理

有关训练期间预处理的详细信息,请参见 here

有关验证期间预处理的详细信息,请参见 here

在验证期间,首先调整每个帧的较短边的大小,然后进行中心裁剪以达到固定尺寸的分辨率(如224x224)。接下来,使用ImageNet的均值和标准差对帧进行RGB通道标准化。

评估结果

该模型的Top-1准确率为87.7%,Top-5准确率为97.4%。