数据集:
visual_genome
子任务:
image-captioning语言:
计算机处理:
monolingual大小:
100K<n<1M语言创建人:
found批注创建人:
found源数据集:
original预印本库:
arxiv:1602.07332许可:
Visual Genome是一个数据集,一个知识库,致力于将结构化的图像概念与语言相连接。
从论文中可以看到:
尽管在诸如图像分类之类的感知任务上取得了进展,但计算机在图像描述和问题回答等认知任务上的表现仍然差强人意。认知对于涉及对我们的视觉世界进行推理的任务至关重要。然而,用于处理认知任务中图像丰富内容的模型仍然是使用设计用于感知任务的相同数据集进行训练。要在认知任务中取得成功,模型需要理解图像中对象之间的相互作用和关系。当被问到“人骑的是什么车辆?”时,计算机需要识别图像中的对象以及骑行(人,马车)和拉动(马,马车)之间的关系,才能正确回答“人骑着一辆马车。”
Visual Genome包括:
从论文中可以看到:
我们的数据集包含108K张图片,每张图片平均有35个对象、26个属性和21个对象之间的关系。我们将区域描述和问题回答中的对象、属性、关系和名词短语规范化为WordNet synsets。
所有注释都使用英语作为主要语言。
在加载特定配置时,用户必须附加特定于版本的后缀:
from datasets import load_dataset
load_dataset("visual_genome", "region_description_v1.2.0")
区域描述 一个例子如下所示。
{
"image": <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=800x600 at 0x7F2F60698610>,
"image_id": 1,
"url": "https://cs.stanford.edu/people/rak248/VG_100K_2/1.jpg",
"width": 800,
"height": 600,
"coco_id": null,
"flickr_id": null,
"regions": [
{
"region_id": 1382,
"image_id": 1,
"phrase": "the clock is green in colour",
"x": 421,
"y": 57,
"width": 82,
"height": 139
},
...
]
}
对象 一个例子如下所示。
{
"image": <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=800x600 at 0x7F2F60698610>,
"image_id": 1,
"url": "https://cs.stanford.edu/people/rak248/VG_100K_2/1.jpg",
"width": 800,
"height": 600,
"coco_id": null,
"flickr_id": null,
"objects": [
{
"object_id": 1058498,
"x": 421,
"y": 91,
"w": 79,
"h": 339,
"names": [
"clock"
],
"synsets": [
"clock.n.01"
]
},
...
]
}
属性 一个例子如下所示。
{
"image": <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=800x600 at 0x7F2F60698610>,
"image_id": 1,
"url": "https://cs.stanford.edu/people/rak248/VG_100K_2/1.jpg",
"width": 800,
"height": 600,
"coco_id": null,
"flickr_id": null,
"attributes": [
{
"object_id": 1058498,
"x": 421,
"y": 91,
"w": 79,
"h": 339,
"names": [
"clock"
],
"synsets": [
"clock.n.01"
],
"attributes": [
"green",
"tall"
]
},
...
}
]
关系 一个例子如下所示。
{
"image": <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=800x600 at 0x7F2F60698610>,
"image_id": 1,
"url": "https://cs.stanford.edu/people/rak248/VG_100K_2/1.jpg",
"width": 800,
"height": 600,
"coco_id": null,
"flickr_id": null,
"relationships": [
{
"relationship_id": 15927,
"predicate": "ON",
"synsets": "['along.r.01']",
"subject": {
"object_id": 5045,
"x": 119,
"y": 338,
"w": 274,
"h": 192,
"names": [
"shade"
],
"synsets": [
"shade.n.01"
]
},
"object": {
"object_id": 5046,
"x": 77,
"y": 328,
"w": 714,
"h": 262,
"names": [
"street"
],
"synsets": [
"street.n.01"
]
}
}
...
}
]
问题回答 一个例子如下所示。
{
"image": <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=800x600 at 0x7F2F60698610>,
"image_id": 1,
"url": "https://cs.stanford.edu/people/rak248/VG_100K_2/1.jpg",
"width": 800,
"height": 600,
"coco_id": null,
"flickr_id": null,
"qas": [
{
"qa_id": 986768,
"image_id": 1,
"question": "What color is the clock?",
"answer": "Green.",
"a_objects": [],
"q_objects": []
},
...
}
]
在加载特定配置时,用户必须附加特定于版本的后缀:
from datasets import load_dataset
load_dataset("visual_genome", "region_description_v1.2.0")
区域描述 所有数据都包含在训练集中。
从论文中可以看到:
我们使用Amazon Mechanical Turk (AMT)作为我们主要的注释来源。总体而言,超过33,000位独特的工作者为数据集做出了贡献。数据集是在15个月的实验和数据表示迭代之后,在6个月的时间内收集完成的。在AMT上启动了大约800,000个人力智能任务(HITs),每个HIT涉及创建描述、问题、答案或区域图。每个HIT的设计使工作者能够在连续工作时每小时赚取6-8美元的收入,与Mechanical Turk上的道德研究标准相符(Salehi et al.,2015)。Visual Genome的HIT实现了94.1%的保留率,这意味着94.1%的工作者在完成我们的任务后继续做更多任务。[...]93.02%的工作者来自美国。我们的工作者年龄主要集中在25岁至34岁之间,最年轻的贡献者为18岁,最年长的贡献者为68岁。男性工作者占54.15%,女性工作者占45.85%。
Ranjay Krishna的Visual Genome数据集采用知识共享署名4.0国际许可协议。
@article{Krishna2016VisualGC,
title={Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations},
author={Ranjay Krishna and Yuke Zhu and Oliver Groth and Justin Johnson and Kenji Hata and Joshua Kravitz and Stephanie Chen and Yannis Kalantidis and Li-Jia Li and David A. Shamma and Michael S. Bernstein and Li Fei-Fei},
journal={International Journal of Computer Vision},
year={2017},
volume={123},
pages={32-73},
url={https://doi.org/10.1007/s11263-016-0981-7},
doi={10.1007/s11263-016-0981-7}
}
由于dummy_data创建的限制,我们提供了一个 fix_generated_dummy_data.py 脚本,可原地修复数据集。
感谢 @thomasw21 添加此数据集。