数据集:

visual_genome

任务:

图生文

目标检测

视觉问答

子任务:

image-captioning

语言:

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

found

源数据集:

original

预印本库:

arxiv:1602.07332

许可:

cc-by-4.0

数据集介绍文件清单

英文

Visual Genome数据集的数据卡片

数据集概述

Visual Genome是一个数据集，一个知识库，致力于将结构化的图像概念与语言相连接。

从论文中可以看到：

尽管在诸如图像分类之类的感知任务上取得了进展，但计算机在图像描述和问题回答等认知任务上的表现仍然差强人意。认知对于涉及对我们的视觉世界进行推理的任务至关重要。然而，用于处理认知任务中图像丰富内容的模型仍然是使用设计用于感知任务的相同数据集进行训练。要在认知任务中取得成功，模型需要理解图像中对象之间的相互作用和关系。当被问到“人骑的是什么车辆？”时，计算机需要识别图像中的对象以及骑行(人，马车)和拉动(马，马车)之间的关系，才能正确回答“人骑着一辆马车。”

Visual Genome包括：

108,077张图片
5.4百万个区域描述
1.7百万个视觉问题回答
3.8百万个对象实例
2.8百万个属性
2.3百万个关系

从论文中可以看到：

我们的数据集包含108K张图片，每张图片平均有35个对象、26个属性和21个对象之间的关系。我们将区域描述和问题回答中的对象、属性、关系和名词短语规范化为WordNet synsets。

数据集预处理

支持的任务和排行榜

语言

所有注释都使用英语作为主要语言。

数据集结构

数据实例

在加载特定配置时，用户必须附加特定于版本的后缀：

from datasets import load_dataset
load_dataset("visual_genome", "region_description_v1.2.0")

区域描述

一个例子如下所示。

{
  "image": <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=800x600 at 0x7F2F60698610>,
  "image_id": 1,
  "url": "https://cs.stanford.edu/people/rak248/VG_100K_2/1.jpg",
  "width": 800,
  "height": 600,
  "coco_id": null,
  "flickr_id": null,
  "regions": [
    {
      "region_id": 1382,
      "image_id": 1,
      "phrase": "the clock is green in colour",
      "x": 421,
      "y": 57,
      "width": 82,
      "height": 139
    },
    ...
  ]
}

对象

一个例子如下所示。

{
  "image": <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=800x600 at 0x7F2F60698610>,
  "image_id": 1,
  "url": "https://cs.stanford.edu/people/rak248/VG_100K_2/1.jpg",
  "width": 800,
  "height": 600,
  "coco_id": null,
  "flickr_id": null,
  "objects": [
    {
      "object_id": 1058498,
      "x": 421,
      "y": 91,
      "w": 79,
      "h": 339,
      "names": [
        "clock"
      ],
      "synsets": [
        "clock.n.01"
      ]
    },
    ...
  ]
}

属性

一个例子如下所示。

{
  "image": <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=800x600 at 0x7F2F60698610>,
  "image_id": 1,
  "url": "https://cs.stanford.edu/people/rak248/VG_100K_2/1.jpg",
  "width": 800,
  "height": 600,
  "coco_id": null,
  "flickr_id": null,
  "attributes": [
    {
      "object_id": 1058498,
      "x": 421,
      "y": 91,
      "w": 79,
      "h": 339,
      "names": [
        "clock"
      ],
      "synsets": [
        "clock.n.01"
      ],
      "attributes": [
        "green",
        "tall"
      ]
    },
    ...
  }
]

关系

一个例子如下所示。

{
  "image": <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=800x600 at 0x7F2F60698610>,
  "image_id": 1,
  "url": "https://cs.stanford.edu/people/rak248/VG_100K_2/1.jpg",
  "width": 800,
  "height": 600,
  "coco_id": null,
  "flickr_id": null,
  "relationships": [
    {
      "relationship_id": 15927,
      "predicate": "ON",
      "synsets": "['along.r.01']",
      "subject": {
        "object_id": 5045,
        "x": 119,
        "y": 338,
        "w": 274,
        "h": 192,
        "names": [
          "shade"
        ],
        "synsets": [
          "shade.n.01"
        ]
      },
      "object": {
        "object_id": 5046,
        "x": 77,
        "y": 328,
        "w": 714,
        "h": 262,
        "names": [
          "street"
        ],
        "synsets": [
          "street.n.01"
        ]
      }
    }
    ...
  }
]

问题回答

一个例子如下所示。

{
  "image": <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=800x600 at 0x7F2F60698610>,
  "image_id": 1,
  "url": "https://cs.stanford.edu/people/rak248/VG_100K_2/1.jpg",
  "width": 800,
  "height": 600,
  "coco_id": null,
  "flickr_id": null,
  "qas": [
    {
      "qa_id": 986768,
      "image_id": 1,
      "question": "What color is the clock?",
      "answer": "Green.",
      "a_objects": [],
      "q_objects": []
    },
    ...
  }
]

数据字段

在加载特定配置时，用户必须附加特定于版本的后缀：

from datasets import load_dataset
load_dataset("visual_genome", "region_description_v1.2.0")

区域描述

image : 包含图像的PIL.Image.Image对象。注意，当访问图像列时： dataset[0]["image"] 图像文件会自动解码。解码大量图像文件可能需要相当长的时间。因此，在 "image" 列之前首先查询样本索引非常重要，即 dataset[0]["image"] 应始终优于 dataset["image"][0]
image_id : 图像的唯一ID。
url : 源图像的URL。
width : 图像的宽度。
height : 图像的高度。
coco_id : 映射到MSCOCO索引的ID。
flickr_id : 映射到Flicker索引的ID。
regions : 保存一个包含Region数据类的列表：
- region_id : 区域的唯一ID。
- image_id : 图像的唯一ID。
- x : 边界框左上角的x坐标。
- y : 边界框左上角的y坐标。
- width : 边界框的宽度。
- height : 边界框的高度。

对象

image : 包含图像的PIL.Image.Image对象。注意，当访问图像列时： dataset[0]["image"] 图像文件会自动解码。解码大量图像文件可能需要相当长的时间。因此，在 "image" 列之前首先查询样本索引非常重要，即 dataset[0]["image"] 应始终优于 dataset["image"][0]
image_id : 图像的唯一ID。
url : 源图像的URL。
width : 图像的宽度。
height : 图像的高度。
coco_id : 映射到MSCOCO索引的ID。
flickr_id : 映射到Flicker索引的ID。
objects : 保存一个包含Object数据类的列表：
- object_id : 对象的唯一ID。
- x : 边界框左上角的x坐标。
- y : 边界框左上角的y坐标。
- w : 边界框的宽度。
- h : 边界框的高度。
- names : 与对象关联的名称列表。此字段可以包含多个值，多个名称被视为可接受的。例如：['monitor', 'computer'] at https://cs.stanford.edu/people/rak248/VG_100K/3.jpg
- synsets : WordNet synsets的列表。

属性

image : 包含图像的PIL.Image.Image对象。注意，当访问图像列时： dataset[0]["image"] 图像文件会自动解码。解码大量图像文件可能需要相当长的时间。因此，在 "image" 列之前首先查询样本索引非常重要，即 dataset[0]["image"] 应始终优于 dataset["image"][0]
image_id : 图像的唯一ID。
url : 源图像的URL。
width : 图像的宽度。
height : 图像的高度。
coco_id : 映射到MSCOCO索引的ID。
flickr_id : 映射到Flicker索引的ID。
attributes : 保存一个包含Object数据类的列表：
- object_id : 区域的唯一ID。
- x : 边界框左上角的x坐标。
- y : 边界框左上角的y坐标。
- w : 边界框的宽度。
- h : 边界框的高度。
- names : 与对象关联的名称列表。此字段可以包含多个值，多个名称被视为可接受的。例如：['monitor', 'computer'] at https://cs.stanford.edu/people/rak248/VG_100K/3.jpg
- synsets : WordNet synsets的列表。
- attributes : 与对象关联的属性列表。

关系

image : 包含图像的PIL.Image.Image对象。注意，当访问图像列时： dataset[0]["image"] 图像文件会自动解码。解码大量图像文件可能需要相当长的时间。因此，在 "image" 列之前首先查询样本索引非常重要，即 dataset[0]["image"] 应始终优于 dataset["image"][0]
image_id : 图像的唯一ID。
url : 源图像的URL。
width : 图像的宽度。
height : 图像的高度。
coco_id : 映射到MSCOCO索引的ID。
flickr_id : 映射到Flicker索引的ID。
relationships : 保存一个包含Relationship数据类的列表：
- relationship_id : 对象的唯一ID。
- predicate : 定义主语和宾语之间关系的谓词。
- synsets : WordNet synsets的列表。
- subject : 对象数据类。请参见对象子节。
- object : 对象数据类。请参见对象子节。

问题回答

image : 包含图像的PIL.Image.Image对象。注意，当访问图像列时： dataset[0]["image"] 图像文件会自动解码。解码大量图像文件可能需要相当长的时间。因此，在 "image" 列之前首先查询样本索引非常重要，即 dataset[0]["image"] 应始终优于 dataset["image"][0]
image_id : 图像的唯一ID。
url : 源图像的URL。
width : 图像的宽度。
height : 图像的高度。
coco_id : 映射到MSCOCO索引的ID。
flickr_id : 映射到Flicker索引的ID。
qas : 保存一个包含Question-Answering数据类的列表：
- qa_id : 问题-答案对的唯一ID。
- image_id : 图像的唯一ID。
- question : 问题。
- answer : 答案。
- q_objects : 与问题字段关联的对象数据类列表。请参见对象子节。
- a_objects : 与答案字段关联的对象数据类列表。请参见对象子节。

数据拆分

所有数据都包含在训练集中。

数据集创建

策展理由

源数据

初始数据收集和规范化谁是源语言的制作者？

注释

注释过程谁是注释者？

从论文中可以看到：

我们使用Amazon Mechanical Turk (AMT)作为我们主要的注释来源。总体而言，超过33,000位独特的工作者为数据集做出了贡献。数据集是在15个月的实验和数据表示迭代之后，在6个月的时间内收集完成的。在AMT上启动了大约800,000个人力智能任务(HITs)，每个HIT涉及创建描述、问题、答案或区域图。每个HIT的设计使工作者能够在连续工作时每小时赚取6-8美元的收入，与Mechanical Turk上的道德研究标准相符(Salehi et al.,2015)。Visual Genome的HIT实现了94.1%的保留率，这意味着94.1%的工作者在完成我们的任务后继续做更多任务。[...]93.02%的工作者来自美国。我们的工作者年龄主要集中在25岁至34岁之间，最年轻的贡献者为18岁，最年长的贡献者为68岁。男性工作者占54.15%，女性工作者占45.85%。

个人和敏感信息

使用数据的注意事项

数据的社会影响

偏见讨论

其他已知限制

附加信息

数据集策展者

许可信息

Ranjay Krishna的Visual Genome数据集采用知识共享署名4.0国际许可协议。

引用信息

@article{Krishna2016VisualGC,
  title={Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations},
  author={Ranjay Krishna and Yuke Zhu and Oliver Groth and Justin Johnson and Kenji Hata and Joshua Kravitz and Stephanie Chen and Yannis Kalantidis and Li-Jia Li and David A. Shamma and Michael S. Bernstein and Li Fei-Fei},
  journal={International Journal of Computer Vision},
  year={2017},
  volume={123},
  pages={32-73},
  url={https://doi.org/10.1007/s11263-016-0981-7},
  doi={10.1007/s11263-016-0981-7}
}

贡献

由于dummy_data创建的限制，我们提供了一个 fix_generated_dummy_data.py 脚本，可原地修复数据集。

感谢 @thomasw21 添加此数据集。

作者:

佚名

数据集大小:

39.67 KB