谷歌发布MobileNetV2：新一代移动端计算机视觉网络

2018年04月04日由 yuxiangyu 发表 888389 0

去年，谷歌发布了MobileNetV1，这是一个通用的计算机视觉神经网络，用于支持在移动设备上分类，检测等等。在个人移动设备上运行深度神经网络的能力改善了用户体验，可以随时随地访问，并为安全、隐私和能耗带来了额外的优势。随着新应用的出现，用户可以与真实世界进行实时交互，因此需要更高效的神经网络。

今天，我们很高兴地宣布，MobileNetV2将助力下一代移动视觉应用。MobileNetV2相对于MobileNetV1的重大改进，并推动了移动视觉识别技术的发展，包括分类，对象检测和语义分割。MobileNetV2作为TensorFlow-Slim图像分类库的一部分发布，你可以立即开始在Colaboratory中探索它。或者，你也可以使用Jupyter下载，并在本地探索它。MobileNetV2也可作为TF-Hub上的模块使用，预训练检查点可在Github上找到。

Github：https://github.com/tensorflow/models/tree/master/research/slim/nets/mobilenet

MobileNetV2继承了MobileNetV1的思想，使用深度可分离卷积结构作为构建模块。而MobileNetV2引入了两种新的功能：层之间的线性瓶颈；瓶颈之间的连接捷径（shortcut）。基础架构如下所示：

谷歌发布MobileNetV2：新一代移动端计算机视觉网络

MobileNetV2架构，蓝色块表示复合卷积构建块。

直觉是，瓶颈对模型的中间输入和输出进行编码，而内层封装了模型从低级概念（如像素）转换为更高级别描述符（如图像类别）的能力。最后，与传统的残差连接(residual connections)一样，而这个“捷径”可实现更快的训练和更高的准确性。

更多细节：https://arxiv.org/abs/1801.04381

与第一代MobileNets比较

总体而言，MobileNetV2模型在整个延迟范围中实现相同精度更快。特别是，新模型使用的运算（operation）减少了2倍，所需参数减少了30％，在Google Pixel手机上的速度比MobileNetV1机型快30％至40％，同时实现了更高的精度。

谷歌发布MobileNetV2：新一代移动端计算机视觉网络

MobileNetV2提高了速度（缩短了延迟）并提高了ImageNet Top 1的准确性

MobileNetV2是对目标检测和分割的非常有效的特征提取器。例如，对于检测任务来说，与新推出的SSDLite搭配时，同等准确性，新模型要比MobileNetV1快大约35％。我们已经在Tensorflow对象检测API中开源了这个模型。

地址：https://github.com/tensorflow/models/tree/master/research/object_detection

谷歌发布MobileNetV2：新一代移动端计算机视觉网络

为了实现设备级的语义分割，我们使用MobileNetV2作为近期发布的DeepLabv3简化形的特征提取器。使用语义分割的基准PASCAL VOC 2012，我们最终的模型获得了与使用MobileNetV1作为特征提取器相似的性能，但使用参数少5.3倍，运算减少5.2倍。

谷歌发布MobileNetV2：新一代移动端计算机视觉网络

正如我们所看到的，MobileNetV2提供了一个非常高效的移动端模型，可以用作许多视觉识别任务的基础。我们希望通过将它分享给更广泛的学术和开源社区，携手推进研究和应用程序的开发。

标签：

视觉识别谷歌开源项目

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇使用Tensorflow对象检测接口进行像素级分类

下一篇深度学习图像识别项目（上）：如何快速构建图像数据集

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术