CNN：Convolutional Neural Network（上）-编程知识

1 为什么使用 CNN 处理图像

2 CNN 的整体结构

2.1 Convolution

2.2 Colorful image

3 Convolution v.s. Fully Connected

4 Max Pooling

5 Flatten

6 CNN in Keras

原视频：李宏毅 2020：Convolutional Neural Network

1 为什么使用 CNN 处理图像

李宏毅老师提出了以下三点理由。

① Some patterns are much smaller than the whole image.

通常来讲，图片的一些样式（pattern）远比整张图片小，从而使一个神经元不需要观察整张图片就能够发现某个样式（pattern），这样做还能减少网络中的参数。

比如，可以让一个神经元专门充当鸟嘴检测器（beak detector），它只需要关注这张图片中是否出现了鸟嘴这一样式（pattern），而不需要关注整张图片中的所有样式（pattern）。

② The same patterns appear in different regions.

在不同的图片中可能存在相同的样式（pattern），但是这些样式（pattern）可能出现在图片中的不同位置。在 CNN 中，将会使用同一神经元来检测相同的样式，避免参数的冗余。

比如，针对鸟嘴这一样式（pattern），CNN 不会专门拿两个神经元来分别检测 “左上角的鸟嘴” 和 “中间的鸟嘴”，而是复用同一神经元。

③ Subsampling the pixels will not change the object.

取一张图片像素的子集可能并不会影响整张图片的内容。这样做能减小图片的大小，从而减少网络中的参数。

比如，去除这张图片中的奇数行和奇数列，图片变为原始图片的 1/4，但这并不影响我们获取图片中的内容。

2 CNN 的整体结构

CNN 的整体结构如下图所示，其中 Convolution 和 Max Pooling 结构可以叠加多次：

CNN 各部分的性质（property）：

Convolution 实现上一节提到的 ①② 功能
Max Pooling 实现上一节提到的 ③ 功能

2.1 Convolution

本节将具体介绍 Convolution 模块是干啥的。

假设这里有一张非常简单的黑白图片，大小为 6×6 个像素，1 表示黑色，0 表示白色。同时，提出一个新的概念叫 “过滤器”（filter）。假设这里只有两个过滤器（filter），均为 3×3 的矩阵。

过滤器（filter）的个数不限，不同的过滤器（filter）将被用于检测图片中的不同样式（pattern），实现了上一小节中提到的 ① 号功能。

为了检测图片中的样式（pattern），这两个过滤器（filter）将会分别和图片进行一个称为卷积（convolution）的操作。下面这个动图演示得非常直观（图源：卷积层 | 鲁老师）：

具体来说，就是过滤器（filter）会逐行逐列扫描整张图片。被扫描到的图片区域将会和过滤器（filter）进行逐元素相乘再相加，如下图所示：

接着，过滤器（filter）会移动一个步长（stride），和下一个被扫描到的图片区域进行卷积操作。假设步长（stride）为 1，则有：

假设步长（stride）为 2，则有：

显然，你发现过滤器扫描不到图片的一些边缘位置，因此人们提出可以为图片 “加边”，也就是加一圈 0，然后再做卷积操作。

这里我们就假设步长（stride）为 1，把所有卷积操作做完，结果如下：

众所周知，向量点积的结果值越大，代表两个向量越相似。在卷积结果中，左上角和左下角的结果值最大。追溯到原始图片，左上角和左下角的图片确实和过滤器（filter）的结构类似。而过滤器（filter）自身的数值代表一种样式，因此可以认为图片的左上角和左下角存在该过滤器（filter）代表的样式（pattern），实现了上一小节中提到的 ② 号功能。

类似地，我们做第二个过滤器（filter）和图片的卷积操作：