数据集:

fashion_mnist

任务:

图像分类

子任务:

multi-class-image-classification

语言:

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:1708.07747

许可:

mit

数据集介绍文件清单

英文

FashionMNIST 数据集卡片

数据集概要

Fashion-MNIST 是 Zalando 的服装图片数据集，包括一个由 60,000 个示例组成的训练集和一个由 10,000 个示例组成的测试集。每个示例都是一个 28x28 的灰度图像，关联着一个属于 10 个类别之一的标签。我们打算将 Fashion-MNIST 作为原始 MNIST 数据集的直接替代品，用于评估机器学习算法的性能。它与 MNIST 具有相同的图像大小、训练和测试拆分结构。

支持的任务和排行榜

图像分类：该任务的目标是将给定的 Zalando 商品图像分类到 10 个类别中的一个。排行榜可在 here 上查看。

语言

[需要更多信息]

数据集结构

数据实例

一个数据点包括一个图像和它的标签。

{
  'image': <PIL.PngImagePlugin.PngImageFile image mode=L size=28x28 at 0x27601169DD8>,
  'label': 9
}

数据字段

image：包含 28x28 图像的 PIL.Image.Image 对象。注意，当访问图像列时：dataset[0]["image"]，图像文件会被自动解码。解码大量图像文件可能需要相当长的时间。因此，在访问 "image" 列之前最好先查询样本索引，即 dataset[0]["image"] 应始终优于 dataset["image"][0]。

label：表示以下映射关系的介于 0 和 9 之间的整数：

Label	Description
0	T-shirt/top
1	Trouser
2	Pullover
3	Dress
4	Coat
5	Sandal
6	Shirt
7	Sneaker
8	Bag
9	Ankle boot

数据拆分

数据被拆分为训练集和测试集。训练集包含 60,000 个图像，测试集包含 10,000 个图像。

数据集创建

策划理由

原始的 MNIST 数据集包含大量手写数字。AI / ML / 数据科学社区的成员喜欢这个数据集，并将其用作验证算法的基准。事实上，MNIST 通常是研究人员尝试的第一个数据集。他们说：“如果它在 MNIST 上不起作用，那它就一定行不通”。但他们也说：“嗯，如果它在 MNIST 上运行得好，它可能在其他数据集上仍然失败。”

这里有一些好的理由：

MNIST 太容易了。卷积网络可以在 MNIST 上达到 99.7% 的准确率。经典的机器学习算法也能轻松达到 97%。请参阅我们关于 Fashion-MNIST vs.MNIST 的对比奖项，并阅读“几乎可以通过只有一个像素来很好地区分 MNIST 数字对。”
MNIST 已经过度使用。在 2017 年 4 月的 Twitter 上，Google Brain 研究科学家和深度学习专家 Ian Goodfellow 呼吁人们摆脱 MNIST。
MNIST 不能代表现代计算机视觉任务，正如深度学习专家/Keras 作者 François Chollet 在 2017 年 4 月的 Twitter 上指出的那样。

源数据

初始数据收集和规范化

原始的 Fashion-MNIST 数据集基于 Zalando 网站上的商品组合。Zalando 的每个时尚产品都有专业摄影师拍摄的一组照片，展示了产品的不同方面，如正反视图、细节、模特和搭配装扮。原始图像具有浅灰色背景（十六进制颜色：#fdfdfd），以 762 × 1000 个 JPEG 格式存储。为了有效地为不同的前端组件提供服务，将原始图像按多种分辨率进行了重新采样，例如大、中、小、缩略图和微小图像。

我们使用 70,000 个唯一商品的正面缩略图图像来构建 Fashion-MNIST。这些商品来自不同的性别群体：男性、女性、儿童和中性。特别地，白色产品未包含在数据集中，因为它们与背景对比度较低。然后，缩略图（51 x 73）经过以下转换流程：

将输入转换为 PNG 图像。

去除与角落像素颜色接近的边缘。 "接近" 的定义是 RGB 空间中在距最大可能强度的 5% 范围内的距离。

通过子采样像素，将图像的最长边调整为 28。

使用标准半径和标准偏差为 1.0 的高斯运算符，对像素进行锐化处理，使其在轮廓周围具有增加的效果。

将最短边扩展为 28，将图像放置在画布的中心。

对图像的强度取反。

将图像转换为 8 位灰度像素。

谁是源语言生产者？

从 arXiv 论文中：Zalando 的每个时尚产品都有专业摄影师拍摄的一组照片，展示了产品的不同方面，如正反视图、细节、模特和搭配装扮。

注释

注释过程

从 arXiv 论文中：对于类别标签，他们使用产品的轮廓代码。轮廓代码由公司内部时尚专家手动标记，并由 Zalando 的另一个团队进行审核。每个 Zalando 产品只包含一个轮廓代码。

注释者是谁？

从 arXiv 论文中：轮廓代码由公司内部时尚专家手动标记，并由 Zalando 的另一个团队进行审核。

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

Han Xiao、Kashif Rasul 和 Roland Vollgraf

许可信息

MIT 许可证

引用信息

@article{DBLP:journals/corr/abs-1708-07747,
  author    = {Han Xiao and
               Kashif Rasul and
               Roland Vollgraf},
  title     = {Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning
               Algorithms},
  journal   = {CoRR},
  volume    = {abs/1708.07747},
  year      = {2017},
  url       = {http://arxiv.org/abs/1708.07747},
  archivePrefix = {arXiv},
  eprint    = {1708.07747},
  timestamp = {Mon, 13 Aug 2018 16:47:27 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1708-07747},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

贡献者

感谢 @gchhablani 添加了该数据集。

作者:

佚名

数据集大小:

17.56 KB