数据集:

sbu_captions

任务:

图生文

语言:

en

计算机处理:

monolingual

大小:

1M<n<10M

语言创建人:

found

批注创建人:

found

源数据集:

original
英文

SBU说明照片数据集数据卡

数据集摘要

SBU说明照片数据集是从Flickr中收集的相关图片和标题的集合。

数据集预处理

默认情况下,该数据集不会将图片下载到本地。相反,它会提供图片的URL。要获取图片,请使用以下代码:

from concurrent.futures import ThreadPoolExecutor
from functools import partial
import io
import urllib

import PIL.Image

from datasets import load_dataset
from datasets.utils.file_utils import get_datasets_user_agent


USER_AGENT = get_datasets_user_agent()


def fetch_single_image(image_url, timeout=None, retries=0):
    for _ in range(retries + 1):
        try:
            request = urllib.request.Request(
                image_url,
                data=None,
                headers={"user-agent": USER_AGENT},
            )
            with urllib.request.urlopen(request, timeout=timeout) as req:
                image = PIL.Image.open(io.BytesIO(req.read()))
            break
        except Exception:
            image = None
    return image


def fetch_images(batch, num_threads, timeout=None, retries=0):
    fetch_single_image_with_args = partial(fetch_single_image, timeout=timeout, retries=retries)
    with ThreadPoolExecutor(max_workers=num_threads) as executor:
        batch["image"] = list(executor.map(fetch_single_image_with_args, batch["image_url"]))
    return batch


num_threads = 20
dset = load_dataset("sbu_captions")
dset = dset.map(fetch_images, batched=True, batch_size=100, fn_kwargs={"num_threads": num_threads})

支持的任务和排行榜

  • 图像到文本 :该数据集可用于训练图像字幕模型,目标是根据图像预测标题。

语言

所有标题都是英文的。

数据集结构

数据实例

SBU说明照片数据集中的每个实例代表一张图片,包括一个标题和一个用户ID:

{
  'img_url': 'http://static.flickr.com/2723/4385058960_b0f291553e.jpg', 
  'user_id': '47889917@N08', 
  'caption': 'A wooden chair in the living room'
}

数据字段

  • image_url :用于下载与帖子关联的图片的静态URL。
  • caption :图片的文本描述。
  • user_id :标题的作者。

数据拆分

所有数据都包含在训练集中。训练集有100万个实例。

数据集创建

选择理由

来自论文的描述:

我们的一项贡献是我们的自动收集这个新数据集的技术 - 执行大量的Flickr查询,然后将嘈杂的结果过滤为100万张带有相关视觉描述的图片。这样的收集使我们能够使用相对简单的非参数方法来应对极具挑战性的描述生成问题,并产生出乎意料的有效结果。

源数据

源图像来自Flickr。

初始数据收集和规范化

我们论文的一个关键贡献是具有相关描述性文本的新颖网规模的相片数据库。为了能够有效地为新颖图片进行字幕生成,这个数据库必须在两个方面具有良好表现:1)它必须足够大,以便与查询的图片匹配相对相似,2)与数据库相片相关联的标题必须在视觉上相关,以便在图片之间转移标题是有用的。为了实现第一个要求,我们使用大量的查询词对(对象,属性,动作,物品和场景)查询Flickr。这产生了一个非常庞大但嘈杂的初始照片集和关联文本集。

谁是源语言的生产者?

Flickr用户。

注释

注释过程

与图像关联的文本描述以注释/标题的形式存在。

谁是注释者?

Flickr用户。

个人和敏感信息

使用数据的注意事项

数据集的社会影响

偏见讨论

其他已知限制

其他信息

数据集策划者

Vicente Ordonez,Girish Kulkarni和Tamara L. Berg。

许可信息

未指定。

引用信息

@inproceedings{NIPS2011_5dd9db5e,
 author = {Ordonez, Vicente and Kulkarni, Girish and Berg, Tamara},
 booktitle = {Advances in Neural Information Processing Systems},
 editor = {J. Shawe-Taylor and R. Zemel and P. Bartlett and F. Pereira and K.Q. Weinberger},
 pages = {},
 publisher = {Curran Associates, Inc.},
 title = {Im2Text: Describing Images Using 1 Million Captioned Photographs},
 url = {https://proceedings.neurips.cc/paper/2011/file/5dd9db5e033da9c6fb5ba83c7a7ebea9-Paper.pdf},
 volume = {24},
 year = {2011}
}

贡献

感谢 @thomasw21 添加了该数据集