数据集:
recipe_nlg
RecipeNLG:用于半结构化文本生成的烹饪食谱数据集。
虽然 RecipeNLG 数据集基于 Recipe1M+ 数据集,但它大大扩展了可用的食谱数量。新数据集在 Recipe1M+ 数据集基础上提供了超过100万条新的、经过预处理和去重的食谱。
[需要更多信息]
该数据集为英文。
{'id': 0,
'title': 'No-Bake Nut Cookies',
'ingredients': ['1 c. firmly packed brown sugar',
'1/2 c. evaporated milk',
'1/2 tsp. vanilla',
'1/2 c. broken nuts (pecans)',
'2 Tbsp. butter or margarine',
'3 1/2 c. bite size shredded rice biscuits'],
'directions': ['In a heavy 2-quart saucepan, mix brown sugar, nuts, evaporated milk and butter or margarine.',
'Stir over medium heat until mixture bubbles all over top.',
'Boil and stir 5 minutes more. Take off heat.',
'Stir in vanilla and cereal; mix well.',
'Using 2 teaspoons, drop and shape into 30 clusters on wax paper.',
'Let stand until firm, about 30 minutes.'],
'link': 'www.cookbooks.com/Recipe-Details.aspx?id=44874',
'source': 0,
'ner': ['brown sugar',
'milk',
'vanilla',
'nuts',
'butter',
'bite size shredded rice biscuits']}
该数据集包含一个训练集划分。
[需要更多信息]
[需要更多信息]
初始数据收集和标准化
[需要更多信息]
谁是源语言的生产者?[需要更多信息]
[需要更多信息]
注释过程[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
我(“研究人员”)已请求获得使用 RecipeNLG 数据集(“数据集”)的许可,该许可是在波兹南理工大学(PUT)获得的。作为获得许可的交换,研究人员在此同意以下条款和条件:
@inproceedings{bien-etal-2020-recipenlg,
title = "{R}ecipe{NLG}: A Cooking Recipes Dataset for Semi-Structured Text Generation",
author = "Bie{\'n}, Micha{\l} and
Gilski, Micha{\l} and
Maciejewska, Martyna and
Taisner, Wojciech and
Wisniewski, Dawid and
Lawrynowicz, Agnieszka",
booktitle = "Proceedings of the 13th International Conference on Natural Language Generation",
month = dec,
year = "2020",
address = "Dublin, Ireland",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.inlg-1.4",
pages = "22--28",
}
感谢 @abhishekkrthakur 添加此数据集。