豹变猫？实时场景转变？NVIDIA多模式图像转换技术都能实现

2018年04月17日由浅浅发表 24420 0

改变美洲豹身上的斑点似乎是个很有趣的想法，而这个想法也并非天方夜谭。通过NVIDIA新的加速GPU深度学习技术，无论是图片还是视频，甚至是实体美洲豹，都能使其变成猫、老虎或狗，而且可以实时转变，即动作也与原先一致。

一变多（图片或视频）给游戏开发者和制片人带来诸多便利，比如效率更高、花费时间更少，一变多得到更多经验。这一技术也为无人驾驶技术带来灵感，即快捷地产生多样的培训数据来处理更复杂多变的道路状况。

[video width="1280" height="720" mp4="https://www.atyun.com/uploadfile/2018/04/Multimodal-Unsupervised-Image-to-image-Translation.mp4"][/video]

一变多

研究人员在12月的神经信息处理系统研讨会上，提出了他们先人一步的早期工作——图像转换，更广为人知的是叫法是NIPS。论文中所描述的方法是逐一工作，将一个图像或视频映射到另一个上。

近期发表的论文中提出的新技术是多模式的（multimodal），可同时将一个图像转换成许多图像。多模式图像转换是强大的NVIDIA研究团队的最新成果。

想象力的提升

就像NIPS的研究一样，多模式图像转换依赖于两种深度学习技术——无人监管学习和生成对抗网络（GANs），让机器更有想象力，比如让其想象一个阳光明媚的街道在暴风雨中或冬季时的景貌。

现在，研究人员不用将夏季的驾驶视频对应到一个冬季的例子上，而是可以创造出一组不同的冬季驾驶视频，雪景也可以多种多样。这种技术在一天中不同的时间和其他天气条件下，都是以同样的方式进行处理，在阴天里提供阳光，或者把夜晚变成黎明、下午或黄昏时刻。另外，该技术在训练用于自动驾驶汽车的深层神经网络方面非常有价值。

在游戏世界里，多模式图像转换可以让电影工作室更高效地创造新角色或新世界。艺术家们可以丢下乏味的任务，去创造更为丰富复杂的故事。

多模式的无人监管图像对图像转换框架，即MUNIT，通过内容与风格来区分图像。例如，在一张猫的照片中，猫的姿势就是内容，而品种则是风格，姿势是固定的。如果把一幅家猫的照片转换成美洲豹或狗，那么动物的位置必须保持一致。品种及物种是要进行区别的，比如短毛家猫、美洲豹或柯利牧羊犬。

缺少数据也没问题

这项研究是建立在一种擅于产生视觉数据的深度学习方法上的。一个GAN使用两个相互竞争的神经网络：其中一个用来生成图像，另一个评估生成的图像的真假。而当数据不足时，GANs特别实用。

通常情况下，图像转换需要相应的图像数据集，如柯利牧羊犬、拉布拉多或老虎的图像，它们的位置必须与最初要转换的猫的形象完全相同。这类数据极难找到，而MUNIT的优点是它并不需要这些数据也可以完成任务。

用MUNIT很容易为自动驾驶汽车生成训练数据，而且不需要从相同的角度捕捉相同的视频片段，只需要同样的视角，以及在相同位置记录的所有接近的车流和其他细节。此外，GANs使人们不再需要对每个图像或视频的内容进行标记，节省了大量的时间和人力。

标签：

视觉识别机器学习神经网络深度学习英伟达NVIDIA

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇高通公司推出专为物联网边缘计算而设计的视觉智能系统芯片

下一篇不用担心拍摄照片时光照不足，AI转换技术可以提升照片清晰度

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

Meta Muse Spark 1.1：百万上下文瞄准多智能体