数据集:

priyank-m/SROIE_2019_text_recognition

英文

我们使用扫描收据OCR和信息提取(SROIE)数据集准备了这个数据集。SROIE数据集包含了973份英文扫描收据。从每个收据中裁剪边界框以生成这个文本识别数据集,结果为训练集生成了33626张图像,测试集生成了18704张图像。所有图像的文本注释都存储在一个metadata.jsonl文件中。

使用方法:

from dataset import load_dataset

data = load_dataset("priyank-m/SROIE_2019_text_recognition")

原始SROIE数据集来源: https://www.kaggle.com/datasets/urbikn/sroie-datasetv2