深度学习系统根据食谱自动生成食物图像

2019年01月16日由浅浅发表 227769 0

对于计算机视觉，通过一长串文本创建图像是复杂的。为了加速这一领域的研究，以色列特拉维夫大学的一个团队开发了一个基于深度学习的系统，该系统可以通过简单的基于文本的食谱自动生成食物的图片。

研究人员在他们的论文中指出：“我们提出了一项新的任务，即通过长文本生成图像，这与图像有关，但不包含对图像的直观描述。”

团队使用NVIDIA TITAN X GPU，以及cuDNN加速的 PyTorch深度学习框架，用52000个食谱及其相应的图像训练了GAN。经过训练后，系统从一长串没有描述视觉内容的文本中生成菜谱的图像。

研究者之一Ori Bar El表示，食谱作为输入，系统从头开始生成它认为该食谱描述的食物的图像。

重要的一点是，系统无法访问菜谱的标题，否则这项任务将非常简单，而且菜谱的文本很长，不能直接描述图像的视觉内容。这使得这项任务即使对人类来说也非常困难，对计算机来说更是如此。

深度学习系统根据食谱自动生成食物图像

为了评估系统产生的两种方法的图像，该团队利用人类评论者的帮助，以1到5的等级判断最具吸引力的图像。值得一提的是，一些真实的食物图像排名低于生成的图像。

该系统成功生成类似粥的食物图像，包括意大利面，米饭，汤和沙拉，但很难生成具有独特形状的图像，如汉堡包，鸡肉或饮料。

论文：

arxiv.org/pdf/1901.02404.pdf

标签：

视觉识别图像识别

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇高尔夫球还是茶壶？神经网络能否通过形状正确识别物体

下一篇外媒称2019的中国人脸识技术将在全球扩展

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术