数据集:
renumics/food101-enriched
📊 对于真实世界的应用案例,数据准则变得越来越重要。在 Renumics ,我们认为经典的基准数据集和竞赛应该得到扩展,以反映这一发展。
🔍 这就是为什么我们发布具有特定应用增强的基准数据集(例如嵌入、基准结果、不确定性、标签误差分数)。我们希望这能以以下方式帮助机器学习社区:
📚 该数据集是 Food101 Data Set 的增强版本。
这些增强功能使您能够快速了解数据集。开源数据整理工具 Renumics Spotlight 可以通过几行代码实现:
在笔记本中通过数据集和Spotlight进行安装:
!pip install renumics-spotlight datasets
从huggingface中加载数据集:
import datasets
dataset = datasets.load_dataset("renumics/food101-enriched", split="train")
用简单视图开始探索:
from renumics import spotlight
df_show = dataset.to_pandas()
spotlight.show(df_show, port=8000, dtype={"image": spotlight.Image})
您可以使用UI与数据进行交互式配置。根据具体任务(例如模型比较、调试、异常检测),您可能需要利用不同的增强功能和元数据。
该数据集包含101个食物类别的101,000张图像。为每个类别提供了250张经过手动审核的测试图像以及750张训练图像。出于目的考虑,训练图像没有进行清理,因此仍然包含一些噪声。这主要以强烈的颜色和有时错误的标签形式存在。所有图像都被重新缩放为最大边长为512像素。
英文类别标签。
下面提供了训练集的一个样本:
{
"image": "/huggingface/datasets/downloads/extracted/49750366cbaf225ce1b5a5c033fa85ceddeee2e82f1d6e0365e8287859b4c7c8/0/0.jpg",
"label": 6,
"label_str": "beignets",
"split": "train"
}
类别标签映射 {
"apple_pie": 0,
"baby_back_ribs": 1,
"baklava": 2,
"beef_carpaccio": 3,
"beef_tartare": 4,
"beet_salad": 5,
"beignets": 6,
"bibimbap": 7,
"bread_pudding": 8,
"breakfast_burrito": 9,
"bruschetta": 10,
"caesar_salad": 11,
"cannoli": 12,
"caprese_salad": 13,
"carrot_cake": 14,
"ceviche": 15,
"cheesecake": 16,
"cheese_plate": 17,
"chicken_curry": 18,
"chicken_quesadilla": 19,
"chicken_wings": 20,
"chocolate_cake": 21,
"chocolate_mousse": 22,
"churros": 23,
"clam_chowder": 24,
"club_sandwich": 25,
"crab_cakes": 26,
"creme_brulee": 27,
"croque_madame": 28,
"cup_cakes": 29,
"deviled_eggs": 30,
"donuts": 31,
"dumplings": 32,
"edamame": 33,
"eggs_benedict": 34,
"escargots": 35,
"falafel": 36,
"filet_mignon": 37,
"fish_and_chips": 38,
"foie_gras": 39,
"french_fries": 40,
"french_onion_soup": 41,
"french_toast": 42,
"fried_calamari": 43,
"fried_rice": 44,
"frozen_yogurt": 45,
"garlic_bread": 46,
"gnocchi": 47,
"greek_salad": 48,
"grilled_cheese_sandwich": 49,
"grilled_salmon": 50,
"guacamole": 51,
"gyoza": 52,
"hamburger": 53,
"hot_and_sour_soup": 54,
"hot_dog": 55,
"huevos_rancheros": 56,
"hummus": 57,
"ice_cream": 58,
"lasagna": 59,
"lobster_bisque": 60,
"lobster_roll_sandwich": 61,
"macaroni_and_cheese": 62,
"macarons": 63,
"miso_soup": 64,
"mussels": 65,
"nachos": 66,
"omelette": 67,
"onion_rings": 68,
"oysters": 69,
"pad_thai": 70,
"paella": 71,
"pancakes": 72,
"panna_cotta": 73,
"peking_duck": 74,
"pho": 75,
"pizza": 76,
"pork_chop": 77,
"poutine": 78,
"prime_rib": 79,
"pulled_pork_sandwich": 80,
"ramen": 81,
"ravioli": 82,
"red_velvet_cake": 83,
"risotto": 84,
"samosa": 85,
"sashimi": 86,
"scallops": 87,
"seaweed_salad": 88,
"shrimp_and_grits": 89,
"spaghetti_bolognese": 90,
"spaghetti_carbonara": 91,
"spring_rolls": 92,
"steak": 93,
"strawberry_shortcake": 94,
"sushi": 95,
"tacos": 96,
"takoyaki": 97,
"tiramisu": 98,
"tuna_tartare": 99,
"waffles": 100
}
| Feature | Data Type |
|---|---|
| image | Image(decode=True, id=None) |
| split | Value(dtype='string', id=None) |
| label | ClassLabel(names=[...], id=None) |
| label_str | Value(dtype='string', id=None) |
| Dataset Split | Number of Images in Split |
|---|---|
| Train | 75750 |
| Test | 25250 |
[需要更多信息]
[需要更多信息]
源语言制造商是谁?[需要更多信息]
[需要更多信息]
标注者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
Food-101数据集由Foodspotting [1]提供的图片组成,不属于苏黎世联邦理工学院(ETHZ)的财产。任何超出科学公正使用范围的使用都必须根据Foodspotting的使用条款与相应的图片所有者商议。 [1] http://www.foodspotting.com/ [2] http://www.foodspotting.com/terms/
如果您使用了这个数据集,请引用以下论文:
@inproceedings{bossard14,
title = {Food-101 -- Mining Discriminative Components with Random Forests},
author = {Bossard, Lukas and Guillaumin, Matthieu and Van Gool, Luc},
booktitle = {European Conference on Computer Vision},
year = {2014}
}
Lukas Bossard,Matthieu Guillaumin,Luc Van Gool和Renumics GmbH。