数据集:

laion/filtered-wit

预印本库:

arxiv:2103.00020
英文

过滤后的WIT图像-文本数据集

一个可靠的用于运行图像-文本模型的数据集。

您可以找到WIT,维基百科图像文本数据集,数据取自 dalle-mini/wit

作者

数据结构

数据以tar文件的形式存储,每个tar文件包含10,000个样本。parquet文件包含每个tar文件的元数据,元数据是使用 this script 创建的。每个tar文件包含一个.jpg文件、一个.txt文件和一个.json文件。图像存储在.jpg文件中,标题存储在.txt文件中,元数据存储在.json文件中。推荐的读取数据的方法是 WebDataset 。以下是一个示例:

import webdataset as wds

dataset = wds.WebDataset('data/00000.tar').to_tuple('txt', 'jpg', 'json')

for text, image, meta in dataset:
    print(
      text[:50],
      image[:50],
      meta[:50]
    )

过滤

每个样本有8个可能的标题,使用 CLIP ViT-B32 将这些标题与图像进行比较。文本使用 multilingual CLIP text encoder 进行编码。将每个可能的标题与编码后的图像进行余弦相似度比较,如果相似度大于0.26,则保留。然后将筛选后的标题拼接在一起,没有筛选出的标题的样本被丢弃。使用的脚本是 filter_wit.py