过滤后的WIT图像-文本数据集

一个可靠的用于运行图像-文本模型的数据集。

您可以找到WIT，维基百科图像文本数据集，数据取自 dalle-mini/wit

作者

Aarush Katta

数据结构

数据以tar文件的形式存储，每个tar文件包含10,000个样本。parquet文件包含每个tar文件的元数据，元数据是使用 this script 创建的。每个tar文件包含一个.jpg文件、一个.txt文件和一个.json文件。图像存储在.jpg文件中，标题存储在.txt文件中，元数据存储在.json文件中。推荐的读取数据的方法是 WebDataset 。以下是一个示例：

import webdataset as wds

dataset = wds.WebDataset('data/00000.tar').to_tuple('txt', 'jpg', 'json')

for text, image, meta in dataset:
    print(
      text[:50],
      image[:50],
      meta[:50]
    )

过滤

每个样本有8个可能的标题，使用 CLIP ViT-B32 将这些标题与图像进行比较。文本使用 multilingual CLIP text encoder 进行编码。将每个可能的标题与编码后的图像进行余弦相似度比较，如果相似度大于0.26，则保留。然后将筛选后的标题拼接在一起，没有筛选出的标题的样本被丢弃。使用的脚本是 filter_wit.py 。

作者:

laion

数据集大小:

28.26 GB