谷歌与MIT开发AI系统，生成逼真的3D模型图像，带有光照和反射

2018年12月05日由浅浅发表 234748 0

近年来，GAN的研究突飞猛进，特别是在机器视觉领域。可以合成逼真的三维物体模型的AI并不是那样遥不可及。MIT CSAIL和谷歌的研究人员在NeurIPS 2018会议上提交了论文“Visual Object Networks: Image Generation with Disentangled 3D Representation”，描述了一个生成式AI系统，能够用纹理创造逼真的形状。

该AI系统名为视觉对象网络（VON），不仅可以生成比某些最先进的方法更逼真的图像，还可以进行形状和纹理编辑，视点偏移，以及其他三维调整。

研究人员表示，“现代深度生成模型学会合成逼真的图像，大多数计算模型只专注于生成2D图像，忽略了世界的3D本质，这种仅支持2D的视角限制了它们在许多领域的实际应用，例如合成数据生成，机器人学习，虚拟现实和游戏。”

VON通过联合合成三维形状和二维图像来解决这个问题，研究人员将其称为“解决对象表征”。图像生成模型被分解为三个因素：形状，视点和纹理。在计算2.5D草图和添加纹理之前，首先学习三维形状的合成。

重要的是，因为这三个因素是条件独立的，所以模型不需要二维和三维形状之间的配对数据。这使得团队能够在大规模的二维图像和三维形状集合上进行训练，如Pix3D，谷歌图像搜索和ShapeNet（包含55个对象类别的数千个CAD模型）。

为了让VON学习如何生成形状，该团队训练了GAN，在上述三维形状数据集上，试图区分生成的样本和现实世界样本。

经过大约两到三天的训练，AI系统始终如一地生成逼真的模型，尺寸为128 x 128 x 128，具有逼真的反射，环境照度和反照率（漫射光或辐射的测量）。

为了评估图像生成模型，团队计算了用于生成的三维模型的Fréchet Inception Distance，即与人类感知相关的度量。此外，他们还向亚马逊的Mechanical Turk的5名受试者展示了来自VON和最先进模型生成的200对图像，他们的任务是选择更逼真的结果。

VON表现非常出色。与所有AI模型相比，它具有最低的Fréchet Inception Distance，并且Mechanical Turk受访者74％到85％选择了其生成的图像。

研究人员未来的工作是由粗略到精细的建模，以更高的分辨率生成形状和图像，将纹理分解为光照和外观，并合成自然场景。

“我们的主要想法是将图像生成过程分解为三个因素：形状，视点和纹理，这种解决3D表征使我们能够在对抗性学习框架下，从3D和2D视觉数据集合中学习模型。与现有的2D生成模型相比，我们的模型合成了更逼真的图像。它还允许各种不同的3D操作，而以前的2D方法是无法实现的。”

论文：papers.nips.cc/paper/7297-visual-object-networks-image-generation-with-disentangled-3d-representations.pdf

标签：

行业图像识别计算机视觉

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇高通发布骁龙855！AI性能飙升三倍

下一篇真实世界转换为虚拟场景，NVIDIA用AI降低成本和时间

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术