谷歌揭示了新的增强现实动画背后的AI技术

2019年03月11日由明知不问发表 789451 0

像YouTube Stories这样的应用程序可以在人脸上叠加动画面具，眼镜和帽子，但它们究竟是如何做到如此真实的？谷歌AI研究部发布的深度研究，使它不再那么神秘。

在博客文章中，公司的工程师用Stories和ARCore的Augmented Faces API的核心技术描述AI技术，这可以模拟光反射，模型面部遮挡，模型镜面反射等等，所有这些都是用一台相机实时进行的。

Artsiom Ablavatski和Ivan Grishchenko解释说，“使这些AR功能成为可能的关键挑战之一是将虚拟内容正确地锚定到现实世界，这一过程需要一套独特的感知技术，才能跨越微笑，皱眉或假笑跟踪具有高度动态的表面几何形状。”

谷歌的增强现实管道，利用TensorFlow Lite，用于硬件加速处理，包括两个神经网络。第一个检测器对相机数据进行操作并计算人脸位置，而第二个三维网格模型使用该位置数据来预测表面几何形状。

为什么采用双模式方法？有两个原因，首先，它大大减少使用合成数据增加数据集的需求，并且它允许AI系统将其大部分容量用于准确预测网格坐标。这两者都对于实现虚拟内容的正确锚定至关重要。

下一步需要使用平滑技术将网格网络应用于单帧摄像机镜头，从而最大限度地减少滞后和噪声。该网格是从裁剪过的视频帧生成的，并在标记过的真实数据上预测坐标，提供3D点位置和人脸出现的概率，并在帧内对齐。

AR管道的最新性能和准确性的改进得益于最新的TensorFlow Lite，它在显著提高性能的同时显着降低了功耗。它们也是工作流程的结果，迭代地引导和细化网格模型的预测，使团队更容易处理具有挑战性的案例，例如鬼脸和倾斜角度，相机缺陷和极端光照条件。

有趣的是，管道不仅仅依赖于一两个模型，相反，它包含一系列旨在支持一系列设备的架构。更轻便的网络需要更少的内存和处理能力，必然使用较低分辨率的输入数据（128 x 128），而最复杂的数学模型将分辨率提高到256 x 256。

根据Ablavatski和Grishchenko的说法，最快的“全网格”模型在Google Pixel 3上推理时间小于10毫秒，而最轻的模型将推理时间降低到每帧3毫秒。它们在iPhone X上的速度要慢一些，但也只是一点点。最轻的型号在大约4毫秒内（使用GPU）进行推理，而全网格需要14毫秒。

标签：

视觉识别谷歌

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Gboard的全新手写识别AI可以减少40%的错误

下一篇微软的Seeing AI更新，有视力障碍的用户可通过触摸来探索照片

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术