TimeSformer（基础尺寸模型，在Something Something v2上进行微调）

TimeSformer模型在 Something Something v2 数据集上进行了预训练。它是由Tong等人在 this repository 年的论文中提出的，并于 this repository 年首次发布。

免责声明：发布TimeSformer的团队没有为该模型编写模型卡片，因此该模型卡片是由 fcakyon 编写的。

预期用途和限制

您可以使用原始模型对视频进行分类，分为174个可能的Something Something v2标签之一。

如何使用

以下是使用此模型对视频进行分类的方法：

from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(8, 3, 224, 224))

processor = AutoImageProcessor.from_pretrained("facebook/timesformer-base-finetuned-ssv2")
model = TimesformerForVideoClassification.from_pretrained("facebook/timesformer-base-finetuned-ssv2")

inputs = processor(images=video, return_tensors="pt")

with torch.no_grad():
  outputs = model(**inputs)
  logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

有关更多代码示例，请参阅 documentation 。

BibTeX条目和引用信息

@inproceedings{bertasius2021space,
  title={Is Space-Time Attention All You Need for Video Understanding?},
  author={Bertasius, Gedas and Wang, Heng and Torresani, Lorenzo},
  booktitle={International Conference on Machine Learning},
  pages={813--824},
  year={2021},
  organization={PMLR}
}

作者:

Meta AI

数据集大小:

463.18 MB