数据集:

kakaobrain/coyo-700m

英文

COYO-700M 数据集卡片

数据集概述

COYO-700M 是一个大规模的数据集,包含了 75亿组图像-文本对,以及许多其他元属性,增加了训练各种模型的可用性。我们的数据集遵循与之前的视觉和语言数据集类似的策略,收集了许多HTML文档中信息丰富的图像替代文本及其关联图像的组合。我们期望COYO用于训练常见的大规模基础模型,并与其他类似的数据集相辅相成。有关数据获取过程的详细信息,请参阅稍后发布的技术论文。

支持的任务和排行榜

我们通过重新实现流行的模型(如 ALIGN unCLIP ViT )对COYO数据集的质量进行了实证验证。我们从头开始训练这些模型,使用COYO-700M或其子集,取得了与原始论文中报告的数字或生成的样本相竞争的性能。我们的预训练模型和训练代码将很快发布,同时附带技术论文。

语言

COYO-700M 数据集中的文本为英文。

数据集结构

数据实例

COYO-700M 中的每个实例代表一个图像-文本对的信息,带有元属性:

{
  'id': 841814333321,
  'url': 'https://blog.dogsof.com/wp-content/uploads/2021/03/Image-from-iOS-5-e1614711641382.jpg',
  'text': 'A Pomsky dog sitting and smiling in field of orange flowers',
  'width': 1000,
  'height': 988,
  'image_phash': 'c9b6a7d8469c1959',
  'text_length': 59,
  'word_count': 11,
  'num_tokens_bert': 13,
  'num_tokens_gpt': 12,
  'num_faces': 0,
  'clip_similarity_vitb32': 0.4296875,
  'clip_similarity_vitl14': 0.35205078125,
  'nsfw_score_opennsfw2': 0.00031447410583496094,
  'nsfw_score_gantman': 0.03298913687467575,
  'watermark_score': 0.1014641746878624,
  'aesthetic_score_laion_v2': 5.435476303100586
}

数据字段

name type description
id long Unique 64-bit integer ID generated by 1235321
url string The image URL extracted from the src attribute of the <img> tag
text string The text extracted from the alt attribute of the <img> tag
width integer The width of the image
height integer The height of the image
image_phash string The 1236321 of the image
text_length integer The length of the text
word_count integer The number of words separated by spaces.
num_tokens_bert integer The number of tokens using 1237321
num_tokens_gpt integer The number of tokens using 1238321
num_faces integer The number of faces in the image detected by 1239321
clip_similarity_vitb32 float The cosine similarity between text and image(ViT-B/32) embeddings by 12310321
clip_similarity_vitl14 float The cosine similarity between text and image(ViT-L/14) embeddings by 12310321
nsfw_score_opennsfw2 float The NSFW score of the image by 12312321
nsfw_score_gantman float The NSFW score of the image by 12313321
watermark_score float The watermark probability of the image by our internal model
aesthetic_score_laion_v2 float The aesthetic score of the image by 12314321

数据划分

数据没有被划分,因为评估预计将在更常用的下游任务上进行。

数据集创建

策划理由

类似于大多数视觉和语言数据集,我们在数据创建过程中的主要目标是收集许多图像替代文本和来自网络的HTML文档中的图像来源对。因此,我们试图以最小的成本消除无信息的图像或文本,并通过添加各种元属性来提高数据集的可用性。用户可以使用这些元属性从COYO-700M中抽样子集,并用于训练所需的模型。例如,num_faces属性可以用来创建一个像COYO-Faces这样的子集,并开发一个保护隐私的生成模型。

源数据

初始数据收集和归一化

我们从2020年10月到2021年8月的时间段内,通过分析Common Crawl数据,采集了约100亿组图像替代文本和图像来源对。然后,通过图像和/或文本级别的过滤过程以最小的成本消除了无信息的组合。

图像级别

  • 包括 Pillow library 能够解码的所有图像格式(JPEG、WEBP、PNG、BMP等)。
  • 删除小于5KB的图像大小。
  • 删除纵横比大于3.0的图像。
  • 删除宽度和高度中的最小值小于200的图像。
  • 删除得分高于0.5的图像 OpenNSFW2 GantMan/NSFW
  • 根据来自外部公共数据集的图像 pHash 值删除所有重复图像。
    • ImageNet-1K/21K、Flickr-30K、MS-COCO、CC-3M、CC-12M。

文本级别

  • 仅收集英文文本使用 cld3
  • 将连续空白字符替换为单个空格,并删除句子前后的空格。(例如"\n \n Load image into Gallery viewer, valentine&amp;#39;s day roses\n \n" → "Load image into Gallery viewer, valentine&amp;#39;s day roses")
  • 删除长度为5或更短的文本。
  • 删除没有名词形式的文本。
  • 删除少于3个词或多于256个词以及超过1000的长度的文本。
  • 删除出现超过10次的文本(例如"thumbnail for"、"image for"、"picture of")。
  • 删除包含NSFW词的文本,这些词是从 profanity_filter better_profanity google_twunter_lol 收集的。

图像-文本级别

  • 基于(image_phash,text)删除重复样本。(同一图像URL可能存在不同的文本)
谁是源语言的生产者?

Common Crawl 是 COYO-700M 的数据来源。

注释

注释过程

该数据集是通过全自动化过程构建的,无需人工注释。

注释者是谁?

没有人工注释。

个人和敏感信息

免责声明和内容警告

COYO 数据集建议仅用于研究目的。Kakao Brain 在构建 COYO 数据集时尽力构建了一个“安全”的数据集(请参阅数据过滤部分)。 Kakao Brain 不断努力创建更多“安全”的数据集。然而,尽管这些努力,由于数据集非常庞大(超过70亿条数据),因此没有通过人工筛选,以避免由于其非筛选的性质而产生风险。请注意,数据集的非筛选性质意味着收集的图像可能会引起人类强烈的不适和恐怖感。COYO 数据集可能包含一些不适当的数据,由此产生的任何问题完全由使用该数据集的用户承担责任。因此,强烈建议仅将此数据集用于研究目的,并在使用数据集时牢记这一点。Kakao Brain 不建议未经特殊处理以清除不适宜的数据而使用该数据集创建商业产品。

使用数据的考虑事项

数据的社会影响

这将在不久后发布的论文中进行描述。

偏见讨论

这将在不久后发布的论文中进行描述。

其他已知限制

这将在不久后发布的论文中进行描述。

其他信息

数据集策划者

COYO 数据集以开源形式发布,希望能够对许多研究机构和初创公司进行研究提供帮助。我们期待与希望与我们合作的各个地方进行联系。

coyo@kakaobrain.com

许可信息

许可证

Kakao Brain 的 COYO 数据集在 CC-BY-4.0 License 许可下。完整的许可证可以在 LICENSE.cc-by-4.0 文件中找到。数据集包括通过分析开源数据爬取项目Common Crawl数据从各个网站收集的“图像URL”和“文本”。所收集的数据(图像和文本)受到每个内容所属的许可证的约束。

使用义务

尽管开源可能是免费使用的,但并不意味着没有义务。为了确定您对 COYO 数据集的拟使用是否适合 CC-BY-4.0 许可证,请考虑许可证指南。如果您违反许可证,可能会面临法律行动,例如使用禁止或索赔赔偿等。

引用信息

如果您将此数据集应用于任何项目和研究,请引用我们的代码:

@misc{kakaobrain2022coyo-700m,
  title         = {COYO-700M: Image-Text Pair Dataset},
  author        = {Minwoo Byeon, Beomhee Park, Haecheon Kim, Sungjun Lee, Woonhyuk Baek, Saehoon Kim},
  year          = {2022},
  howpublished  = {\url{https://github.com/kakaobrain/coyo-dataset}},
}

贡献者