模型:

microsoft/dit-base-finetuned-rvlcdip

英文

文档图像变换器(基本尺寸模型)

文档图像变换器(DiT)模型是在IIT-CDIP(Lewis等人,2006)上进行预训练的,该数据集包括4200万个文档图像,并在 RVL-CDIP 上进行了微调,该数据集包含了16个类别中的40万个灰度图像,每个类别有25000个图像。这个模型是由Li等人在 DiT: Self-supervised Pre-training for Document Image Transformer 中介绍的,并在 this repository 首次发布。请注意,DiT与 BEiT 的架构完全相同。

免责声明:发布DiT的团队并未对该模型进行模型卡的编写,因此该模型卡是由Hugging Face团队编写的。

模型描述

文档图像变换器(DiT)是一个在自监督方式下预训练的转换器编码器模型(类似于BERT),它在大量图像集合上进行预训练。该模型的预训练目标是根据遮罩的补丁从离散VAE(dVAE)的编码器内预测视觉标记。

将图像作为一系列固定大小的补丁(分辨率16x16)呈现给模型,然后进行线性嵌入。在将序列馈送到Transformer编码器的层之前,还添加了绝对位置嵌入。

通过对模型进行预训练,它学习了图像的内在表示,然后可以用于提取对下游任务有用的特征:例如,如果您有一个带有标签的文档图像数据集,可以在预训练的编码器之上放置一个线性层来训练一个标准分类器。

预期的用途和限制

您可以使用原始模型将文档图像编码为向量空间,但主要用于在任务上进行微调,例如文档图像分类,表格检测或文档布局分析。查看 model hub 以寻找您感兴趣的任务的微调版本。

使用方法

以下是在PyTorch中使用此模型的方法:

from transformers import AutoImageProcessor, AutoModelForImageClassification
import torch
from PIL import Image

image = Image.open('path_to_your_document_image').convert('RGB')

processor = AutoImageProcessor.from_pretrained("microsoft/dit-base-finetuned-rvlcdip")
model = AutoModelForImageClassification.from_pretrained("microsoft/dit-base-finetuned-rvlcdip")

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits

# model predicts one of the 16 RVL-CDIP classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

BibTeX条目和引用信息

@article{Lewis2006BuildingAT,
  title={Building a test collection for complex document information processing},
  author={David D. Lewis and Gady Agam and Shlomo Engelson Argamon and Ophir Frieder and David A. Grossman and Jefferson Heard},
  journal={Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval},
  year={2006}
}