X-CLIP（大型模型）

X-CLIP模型（大型，分辨率为14的补丁）在 Kinetics-400 上进行了完全监督的训练。它是由Ni等人在 Expanding Language-Image Pretrained Models for General Video Recognition 论文中介绍并于 this repository 首次发布的。

该模型使用16帧视频进行训练，分辨率为336x336。

免责声明：发布X-CLIP的团队没有为这个模型编写模型卡片，因此这个模型卡片是由Hugging Face团队编写的。

模型描述

X-CLIP是 CLIP 在通用视频-语言理解上的最小扩展。模型以对比的方式在（视频，文本）对上进行训练。

这使得该模型可以用于零样本、少样本或完全监督的视频分类和视频-文本检索等任务。

您可以使用原始模型来确定文本与给定视频的匹配程度。请参阅 model hub ，了解您感兴趣任务的微调版本。

有关代码示例，请参考 documentation 。

该模型使用 Kinetics-400 进行了训练。

有关训练期间预处理的详细信息，请参见 here 。

有关验证期间预处理的详细信息，请参见 here 。

在验证期间，首先调整每个帧的较短边的大小，然后进行中心裁剪以达到固定尺寸的分辨率（如224x224）。接下来，使用ImageNet的均值和标准差对帧进行RGB通道标准化。

该模型的Top-1准确率为87.7%，Top-5准确率为97.4%。

作者:

Microsoft

数据集大小:

2.15 GB