MIT与IBM开发AI系统，可快速调整视觉效果，同时帮助识别虚假图像

2019年07月02日由明知不问发表 610123 0

智能手机通常使用AI来帮助我们拍摄更清晰的照片。但是，如果可以使用这些AI工具从头开始创建整个场景呢？

麻省理工学院和IBM的团队开发了“GANpaint Studio”，这个系统可以自动生成逼真的摄影图像并编辑其中的对象。除了帮助艺术家和设计师快速调整视觉效果外，这项工作可能有助于计算机科学家识别虚假图像。

麻省理工学院计算机科学与人工智能实验室（CSAIL）博士生David Bau将该项目描述为计算机科学家首次能够实际“用神经元绘制神经网络”之一，特别是生成对抗网络（GAN）。

GANpaint Studio是一款在线互动演示软件，用户可以上传自己选择的图片，并修改其外观的多个方面，从改变物体的大小到添加全新的物品，比如树木和建筑物。

调整视觉效果

项目由麻省理工学院教授Antonio Torralba领导，设计师和艺术家可以使用系统来更快地调整视觉效果。使系统适应视频剪辑，计算机图形编辑器能够快速组成特定镜头所需对象的特定排列。

[video width="1280" height="720" mp4="https://www.atyun.com/uploadfile/2019/07/Editing-Images-with-Neural-Networks.mp4"][/video]

通过分析需要删除的构件单元，GANpaint Studio还可用于改进和调试正在开发的其他GAN。现在不透明的AI工具使图像处理比以往更容易的世界中，它可以帮助研究人员更好地理解神经网络及其底层结构。

研究人员Bau表示，“现在，机器学习系统是黑盒子，就像那些古老的电视机，我们并不总是知道如何改进，这项研究表明，虽然打开电视并看到所有电线可能会让人感到害怕，但那里会有很多有意义的信息。”

一个意外的发现是系统实际上似乎已经学习了一些关于对象之间关系的简单规则。它知道不应该把某些东西放在某个地方，比如天空中有一扇窗户。它也会在不同的环境中创造出不同的视觉效果，例如，如果在一个图像中有两个不同的建筑物，系统被要求在这两个建筑物上都添加门，它不会简单地添加相同的门，它们最终可能看起来非常不同。

“所有绘图应用程序都将遵循用户指令，但如果用户命令将对象放在不可能的位置，我们可能决定不绘制任何内容，”Torralba说，“这是一个个性化的绘图工具，它打开了一个窗口，让我们了解GAN如何学会代表视觉世界。”

这项研究如何让我们能够直接看到，GAN确实学到了一些东西，这些东西开始变得有点像常识。这种能力是拥有可以在人类世界中发挥作用的自主系统的关键踏脚石，这种系统是无限的，复杂的，不断变化的。

剔除虚假图像

该团队的目标是让人们更好地控制GAN网络。但是他们认识到，这种技术可能会出现滥用，更好地理解GAN和它们所犯的错误将有助于研究人员更好地杜绝伪造。

CSAIL的博士后Zhu表示，“你需要先了解你的对手才能进行防御，这种理解可能有助于我们更轻松地检测虚假图像。”

为了开发该系统，该团队首先确定了GAN内部与特定类型的对象（如树木）相关的单元。然后，它单独测试这些单元，看看是否摆脱它们会导致某些物体消失或出现。重要的是，他们还确定了导致视觉错误的单元，并努力将其移除以提高图像的整体质量。

IBM的研究科学家Hendrik Strobelt说：“每当GAN产生非常不切实际的图像时，这些错误的原因以前就是一个谜。我们发现，这些错误是由特定的神经元触发的，可以让这些神经元保持沉默，以提高图像的质量。”

Lehtinen表示，“这个系统为更好地理解GAN模型打开了一扇大门，这将有助于进行GAN相关的任何类型的研究。”

标签：

视觉识别 IBM MIT麻省理工学院

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇继旧金山之后，萨默维尔成为美国第二个禁止面部识别技术的城市

下一篇微软键盘应用SwiftKey利用AI，将面部表情的实时模拟成3D动物

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术