VQGAN (f8, 8192)用于LAION-100M数据集的嵌入

该数据集包含来自 LAION-400M dataset 的前100万个图像文本对的VQGAN (f8, 8192)嵌入。VQGAN在 "Taming Transformers for High-Resolution Image Synthesis" 论文中被引入，并应用于 DALLE-mini 的训练。

注意：这个大规模的数据集未经筛选。它是为了研究目的而构建的，以便测试在更大范围的研究人员和其他感兴趣的群体上进行模型训练，并且不适用于任何真实的生产或应用。

VQGAN (f8, 8192) 是一个预训练模型，下采样因子为f=8，有8192个码本条目，并使用Gumbel量化。我们没有进行任何微调，并使用了来自 DALLE-pytorch 仓库的VQGAN包装器进行推理。由于LAION-400M包含256x256大小的图像，该模型为每个图像生成了1024个代码。

数据以*.parquet文件的形式提供，包含嵌入和元信息：

嵌入（code列）表示为可以使用np.frombuffer(data, np.int16).reshape(32, 32)解码的二进制数据。
元信息（标题，网址和其他列）与LAION-400M的*.parquet文件中的元信息相同（详见描述 here ）。
此数据集不包含原始图像。

数据对应于LAION-400M的shards 00000，00001，...，09999。原始数据集中有0.07%的碎片损坏被排除在外。

LAION-400M数据集根据 CC-BY 4.0 license 进行分发。VQGAN模型根据 MIT license 进行分发。

作者:

laion

数据集大小:

782.61 MB