数据集:

fashion_mnist

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:1708.07747

许可:

mit
英文

FashionMNIST 数据集卡片

数据集概要

Fashion-MNIST 是 Zalando 的服装图片数据集,包括一个由 60,000 个示例组成的训练集和一个由 10,000 个示例组成的测试集。每个示例都是一个 28x28 的灰度图像,关联着一个属于 10 个类别之一的标签。我们打算将 Fashion-MNIST 作为原始 MNIST 数据集的直接替代品,用于评估机器学习算法的性能。它与 MNIST 具有相同的图像大小、训练和测试拆分结构。

支持的任务和排行榜

  • 图像分类:该任务的目标是将给定的 Zalando 商品图像分类到 10 个类别中的一个。排行榜可在 here 上查看。

语言

[需要更多信息]

数据集结构

数据实例

一个数据点包括一个图像和它的标签。

{
  'image': <PIL.PngImagePlugin.PngImageFile image mode=L size=28x28 at 0x27601169DD8>,
  'label': 9
}

数据字段

  • image:包含 28x28 图像的 PIL.Image.Image 对象。注意,当访问图像列时:dataset[0]["image"],图像文件会被自动解码。解码大量图像文件可能需要相当长的时间。因此,在访问 "image" 列之前最好先查询样本索引,即 dataset[0]["image"] 应始终优于 dataset["image"][0]。
  • label:表示以下映射关系的介于 0 和 9 之间的整数:
    Label Description
    0 T-shirt/top
    1 Trouser
    2 Pullover
    3 Dress
    4 Coat
    5 Sandal
    6 Shirt
    7 Sneaker
    8 Bag
    9 Ankle boot

数据拆分

数据被拆分为训练集和测试集。训练集包含 60,000 个图像,测试集包含 10,000 个图像。

数据集创建

策划理由

原始的 MNIST 数据集包含大量手写数字。AI / ML / 数据科学社区的成员喜欢这个数据集,并将其用作验证算法的基准。事实上,MNIST 通常是研究人员尝试的第一个数据集。他们说:“如果它在 MNIST 上不起作用,那它就一定行不通”。但他们也说:“嗯,如果它在 MNIST 上运行得好,它可能在其他数据集上仍然失败。”

这里有一些好的理由:

  • MNIST 太容易了。卷积网络可以在 MNIST 上达到 99.7% 的准确率。经典的机器学习算法也能轻松达到 97%。请参阅我们关于 Fashion-MNIST vs.MNIST 的对比奖项,并阅读“几乎可以通过只有一个像素来很好地区分 MNIST 数字对。”
  • MNIST 已经过度使用。在 2017 年 4 月的 Twitter 上,Google Brain 研究科学家和深度学习专家 Ian Goodfellow 呼吁人们摆脱 MNIST。
  • MNIST 不能代表现代计算机视觉任务,正如深度学习专家/Keras 作者 François Chollet 在 2017 年 4 月的 Twitter 上指出的那样。

源数据

初始数据收集和规范化

原始的 Fashion-MNIST 数据集基于 Zalando 网站上的商品组合。Zalando 的每个时尚产品都有专业摄影师拍摄的一组照片,展示了产品的不同方面,如正反视图、细节、模特和搭配装扮。原始图像具有浅灰色背景(十六进制颜色:#fdfdfd),以 762 × 1000 个 JPEG 格式存储。为了有效地为不同的前端组件提供服务,将原始图像按多种分辨率进行了重新采样,例如大、中、小、缩略图和微小图像。

我们使用 70,000 个唯一商品的正面缩略图图像来构建 Fashion-MNIST。这些商品来自不同的性别群体:男性、女性、儿童和中性。特别地,白色产品未包含在数据集中,因为它们与背景对比度较低。然后,缩略图(51 x 73)经过以下转换流程:

  • 将输入转换为 PNG 图像。
  • 去除与角落像素颜色接近的边缘。 "接近" 的定义是 RGB 空间中在距最大可能强度的 5% 范围内的距离。
  • 通过子采样像素,将图像的最长边调整为 28。
  • 使用标准半径和标准偏差为 1.0 的高斯运算符,对像素进行锐化处理,使其在轮廓周围具有增加的效果。
  • 将最短边扩展为 28,将图像放置在画布的中心。
  • 对图像的强度取反。
  • 将图像转换为 8 位灰度像素。
  • 谁是源语言生产者?

    从 arXiv 论文中:Zalando 的每个时尚产品都有专业摄影师拍摄的一组照片,展示了产品的不同方面,如正反视图、细节、模特和搭配装扮。

    注释

    注释过程

    从 arXiv 论文中:对于类别标签,他们使用产品的轮廓代码。轮廓代码由公司内部时尚专家手动标记,并由 Zalando 的另一个团队进行审核。每个 Zalando 产品只包含一个轮廓代码。

    注释者是谁?

    从 arXiv 论文中:轮廓代码由公司内部时尚专家手动标记,并由 Zalando 的另一个团队进行审核。

    个人和敏感信息

    [需要更多信息]

    使用数据的注意事项

    数据集的社会影响

    [需要更多信息]

    偏见讨论

    [需要更多信息]

    其他已知限制

    [需要更多信息]

    其他信息

    数据集策划者

    Han Xiao、Kashif Rasul 和 Roland Vollgraf

    许可信息

    MIT 许可证

    引用信息

    @article{DBLP:journals/corr/abs-1708-07747,
      author    = {Han Xiao and
                   Kashif Rasul and
                   Roland Vollgraf},
      title     = {Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning
                   Algorithms},
      journal   = {CoRR},
      volume    = {abs/1708.07747},
      year      = {2017},
      url       = {http://arxiv.org/abs/1708.07747},
      archivePrefix = {arXiv},
      eprint    = {1708.07747},
      timestamp = {Mon, 13 Aug 2018 16:47:27 +0200},
      biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1708-07747},
      bibsource = {dblp computer science bibliography, https://dblp.org}
    }
    

    贡献者

    感谢 @gchhablani 添加了该数据集。