揭秘图像识别技术，告诉你机器如何利用卷积神经网络“看见”这个世界

2018年12月18日由 duketxl 发表 894703 0

看懂一个东西对人类来说很容易，对机器却是很难的，这个时候图像识别技术就应运而生。今天我们就为大家揭秘图像识别技术原理，告诉你机器如何利用卷积神经网络进行图像识别，从而“看见”这个世界。

什么是图像识别技术

对人类来说，描述我们眼睛所看到的事物，即视觉世界，看起来太微不足道了，以至于我们根本没有意识到那正是我们时时刻刻在做的事情。在看到某件事物时，不管是汽车、大树，还是一个人，我们通常都不需要过多的思考就能立刻叫出名字。然而对于一台计算机来说，区分识别“人类对象”（比如：在小狗、椅子或是闹钟这些“非人类对象”中识别出“奶奶”这一“人类对象”）却是相当困难的。能解决这一问题可以带来非常高的收益。图像识别技术，更宽泛地说是“计算机视觉”技术，是许多新兴技术的基础。从无人驾驶汽车到面部识别软件，从那些看似简单但十分重要的发展成果——能够监测流水线缺陷和违规的“智能工厂”，到保险公司用来分类和处理索赔照片的自动化软件。这些新兴科技是都离不开图像识别技术的。在接下来的内容里，我们将要探究图像识别技术所面临的问题和挑战，探寻图像识别技术原理并分析科学家是如何用一种特殊的神经网络来解决图像识别技术这一挑战的。

图像识别技术是一项高难度、高成本的任务

着手解决图像识别技术难题，我们可以首先将元数据应用于非结构化数据。让专人来对电影和音乐进行人工图像识别分类和图像识别标记，确实是一项艰巨的任务。但有些任务不仅艰巨，甚至是不可能完成的。比如训练无人驾驶汽车里的导航系统，让其能够将其他车辆与正在过马路的行人区分开来；或者是每天对社交网站上用户上传的千千万万张的照片和视频进行标记、分类和筛查，这些是图像识别技术的基础。唯一能够解决这一图像识别技术难题的方法就是神经网络。理论上我们可以用常规的神经网络来进行图像识别，但在实际操作中，从计算角度看，使用这种方法的成本非常高。举例来说，一个常规的神经网络，就算是处理一个非常小的图像，假设是30*30像素的图像，仍需要900个数据输入和五十多万个参数。这样的处理加工对一个相对强大的机器来说还是可行的；但是，如果需要处理更大的图像，假设是500*500像素的图像，那么机器所需的数据输入和参数数量就会大大增加，增加到难以想象的地步。除此之外，将神经网络用于图像识别还可能会导致另一个问题——过度拟合。简单来说，过度拟合指的是图像识别系统训练的数据过于接近图像识别定制的数据模型的现象。这不仅会在大体上导致图像识别技术参数数量的增加（也就是进一步计算支出的增加），还将削弱图像识别技术在面临新数据时其他常规功能的正常发挥。

图像识别技术真正的解决方案——卷积神经网络

幸运的是，我们发现，只要在神经网络的结构方式上做一个小小的改变，就能使大型图像识别任务的处理更具可操作性。改造后的神经网络被称作卷积神经网络，也叫CNNs或ConvNets。

神经网络的优势之一在于它的普遍适应性。但是，就像我们刚刚看到的，神经网络的这一优势在图像识别技术上实际上是一种不利因素。而卷积神经网络能够对此作出一种有意识的权衡——为了得到一个更可行的解决方案，我们牺牲了神经网络的其他普遍性功能，设计出了一个专门用于图像识别技术的神经网络。

在任何一张图像中，接近度与相似度的关联性都是非常强的，卷积神经网络就是利用了这一原理。具体而言就是，在一张图像中的两个相邻像素，比图像中两个分开的像素更具有关联性。但是，在一个常规的神经网络中，每个像素都被连接到了单独的神经元。这样一来，计算负担自然加重了，而加重的计算负担实际上是在削弱神经网络的准确程度。

卷积神经网络通过削减许多不必要的连接来解决图像识别技术中的这一问题。运用图像识别技术中的术语来说就是，卷积神经网络按照关联程度筛选不必要的连接，进而使图像识别过程在计算上更具有可操作性。卷积神经网络有意地限制了图像识别时候的连接，让一个神经元只接受来自之前图层的小分段的输入（假设是3×3或5×5像素），避免了过重的计算负担。因此，每一个神经元只需要负责处理图像的一小部分。

卷积神经网络的内在秘密

卷积神经网络究竟是如何筛选出不必要的图像连接的呢？秘密就在于两个新添的新型图层——卷积层和汇聚层。我们接下来将会通过一个实操案例：让卷积神经网络判断照片中是否有“奶奶”这一对象，把卷积神经网络的图像识别操作进行分解，逐一描述。

第一步，卷积层

卷积层本身实际上也包含了几个步骤：

1.首先，我们会将奶奶的照片分解成一些3×3像素的、重叠着的拼接图块。

2.然后，我们把每一个图块运行于一个简单的、单层的卷积神经网络，保持权衡不变。这一操作会使我们的拼接图块变成一个图组。由于我们一开始就将原始图像分解成了小的图像（在这个案例中，我们是将其分解成了3×3像素的图像），所以，用于图像识别的卷积神经网络也是比较好操作的。

3.接下来，我们将会把这些输出值排列在图组中，用数字表示照片中各个区域的内容，数轴分别代表高度、宽度和颜色。那么，我们就得到了每一个图块的三维数值表达。（如果我们讨论的不是奶奶的照片，而是视频，那么我们就会得到一个四维的数值表达了。）

第二步，汇聚层

汇聚层是将这个三维（或是四维）图组的空间维度与采样函数结合起来，输出一个仅包含了图像中相对重要的部分的联合数组。这一联合数组不仅能使卷积神经网络计算负担最小化，还能有效避免过度拟合的问题。

最后，我们会把从汇聚层中得出的采样数组作为常规的、全方位连接的卷积神经网络来使用。通过卷积层和汇聚层，我们大幅度地缩减了输入的数量，因此，我们这时候得到的数组大小是一个正常普通网络完全能够处理的，不仅如此，这一数组还能保留原始数据中最重要的部分。这最后一步的输出结果将最终显示出系统有多少把握作出“照片中有奶奶”的判断。

以上只是对卷积神经网络工作过程的简单描述，现实中，其工作过程是更加复杂的。另外，跟我们这里的案例不同，现实中的卷积神经网络处理的内容一般包含了上百个，甚至上千个标签。

卷积神经网络的实施

重新开始建立一个卷积神经网络是一项非常耗时且昂贵的工作。不过，许多API已经实现了在没有内部计算机视觉或机器学习专家的帮助下，完成图像识别的收集工作。

谷歌云视觉是谷歌的视觉识别API，它是以开源式TensorFlow框架为基础的，采用了一个REST API。谷歌云视觉包含了一组相当全面的标签，能够检测单个的对象和人脸。

IBM沃森视觉识别技术是沃森云开发者的重要组成部分。它虽然涵盖了大量的内置类集，但实际上，它是根据你所提供的图像来进行定制类集的训练的。

Clarif.ai是图像识别服务的后起之秀，它采用了一个REST API。值得一提的是，Clarif.ai包含了大量的单元，能够根据特定的情境定制不同的图像识别算法。

上面的这些API更适用于一些普通的图像识别技术，但对于一些特殊的图像识别任务，可能还是需要对症下药，制定专门的解决方案。不过值得庆幸的是，有许多数据库可以处理卷积神经网络计算和优化方面的工作，这或多或少地减轻了数据科学家和开发人员的压力，让他们有更多精力关注于图像识别模型训练。其中，大部分的数据库，包括TensorFlow，深度学习4J和Theano，都已经得到了广泛、成功的应用。

在进行图像识别的时候，还有一项重要的准备过程，就是数据集的准备。ATYUN为你提供大量的图像识别数据集，您可以点击资源中心免费下载。