CNN基本结构
卷积神经网络(Convolutional Neural Network,CNN)是深度学习技术中最基础的网络结构,模拟人脑工作,具备强大的特征学习能力。CNN结构主要由两部分组成:特征提取部分和分类部分\color{blue}{特征提取部分和分类部分}特征提取部分和分类部分。特征提取部分网络将执行一系列卷积和池化操作。分类部分使用全连接层作为一个分类器,使用特征提取部分提取的特征为图像上的对象分配概率,即算法预测概率。CNN结构如下所示。
卷积层
卷积层是CNN中最基础的结构,由许多卷积核(filter)\color{blue}{卷积核(filter)}卷积核(filter)组成,每个卷积核是一个针对局部区域的滤波模板,模板对应区域称之为感受野\color{blue}{感受野}感受野。卷积核以一定步长在图像矩阵上滑动,每到一个位置,卷积核对这个位置进行卷积操作,用图像矩阵上的值乘以卷积核中对应位置的权重,求和后得到卷积后的值。下图是一个2×22 \times 22×2的卷积核以1为步长在一个3×33 \times 33×3的矩阵上卷积的过程。以蓝色输出的位置为例,0×0+1×1+2×3+3×4=19\color{blue}{0×0+1×1+2×3+3×4=19}0×0+1×1+2×3+3×4=19 ,卷积完成后向右移动一个步长继续卷积,直到所有位置都卷积完毕。这样的结构在图像的不同区域都共享同样的卷积核参数,大大减少了网络的计算开销。
总结:卷积层中的超参数包括卷积核个数、大小尺寸、步长和填充\color{blue}{卷积核个数、大小尺寸、步长和填充}卷积核个数、大小尺寸、步长和填充(尺寸大于1×11×11×1的卷积核或大于1的步长会导致卷积后的特征图小于卷积之前,所以有的网络会利用填充零元素的方法使特征图和卷积之前保持一致),那么输出特征图的大小可表示为:
{W2=W1−F+2×ps+1H2=H1−F+2×ps+1\begin{aligned} \left{ \begin{array}{l} {W_2} = \frac{{{W_1} - F + 2 \times p}}{s} + 1\ \ {H_2} = \frac{{{H_1} - F + 2 \times p}}{s} + 1 \end{array} \right. \end{aligned}⎩⎨⎧W2=sW1−F+2×p+1H2=sH1−F+2×p+1
其中,W1×H1{W_1} \times {H_1}W1×H1代表输入图像的尺寸,W2×H2{W_2} \times {H_2}W2×H2为输出图片的尺寸,FFF为卷积核的尺寸,ppp一般取值为0或1,sss为步长。
看完这个公式我就要考考大家了:如果输入数据是32∗32∗33232332∗32∗3的图像,用10个5∗5∗35535∗5∗3的filter来进行卷积操作,指定步长为1,边界填充为2,那么最终输出的规模是多少腻❓❓❓(先自己动笔算算嗷)答案是:(32−5+2∗2)/1+1=32\color{blue}{(32-5+22)/1+1=32}(32−5+2∗2)/1+1=32,输出规模为32∗32∗103232*1032∗32∗10,经过卷积操作后也可以保持特征图长度、宽度不变。
为了给模型引入非线性,卷积核计算的结果一般需要输入激活函数。激活函数是神经网络结构中的重要元素,通过非线性转换实现自动特征提取,避免了线性输入输出问题,增强了网络非线性学习和处理复杂数据集的能力。激活函数必须具有单调性和可微性才能保证偏导函数的有效性。常用的激活函数有以下几种:
1.Sigmoid函数\color{blue}{1. Sigmoid函数}1.Sigmoid函数
Sigmoid函数将神经网络的输出映射到[0,1]范围内的概率值,这些概率值可以用来表示分类问题中每个类别的置信程度或回归问题中的连续输出。函数的特点是它的输出值在输入值为0时达到最大值0.5,并且在输入值接近正无穷或负无穷时趋近于1或0,使得函数能够对输入进行二元分类。但是❗该函数收敛速度缓慢,在反向传播时会有梯度消失问题。Sigmoid函数如下所示。
f(x)=11+e−x\begin{aligned} f(x) = {1 \over {1 + {e^{ - x}}}} \end{aligned}f(x)=1+e−x1
2.Tanh函数\color{blue}{2. Tanh函数}2.Tanh函数
Tanh函数的取值范围为[-1,1],形状类似于Sigmoid函数,但Tanh函数在x等于0时,输出值为0,而Sigmoid函数在这点的输出为0.5,因此Tanh函数具有更强的非线性特征。此外,Tanh函数以原点为对称,解决了零均值问题,两端仍会存在梯度消失和幂运算耗时的弊端。表达式如下。
tanh(x)=sinh(x)cosh(x)=ex−e−xex+e−x\begin{aligned} \tanh (x) = {{\sinh (x)} \over {\cosh (x)}} = {{{e^x} - {e^{ - x}}} \over {{e^x} + {e^{ - x}}}} \end{aligned}tanh(x)=cosh(x)sinh(x)=ex+e−xex−e−x
3.Relu函数\color{blue}{3. Relu函数}3.Relu函数
当输入信号小于等于0时,Relu函数的输出为0,当输入信号大于0时,输出等于输入信号本身。此函数的特点就是简单、高效、计算速度非常快。Relu函数的导数恒为1或0,可以减少计算量,加速模型的训练过程,同时能有效避免梯度消失。表达式如下。
f(x)=max(0,x)\begin{aligned} f(x)=max(0,x) \end{aligned}f(x)=max(0,x)
4.LeakyRelu函数\color{blue}{4. Leaky Relu函数}4.LeakyRelu函数
与Relu不同,Leaky Relu在输入值为负数时不会输出0,而是输出一个很小的值a(通常为0.01),这个小值可以帮助解决Relu的死亡神经元问题,即在训练的过程中,某些神经元可能永远不会被激活,从而导致它们对整个网络的贡献为0。此外,Leaky Relu函数能够更快的收敛,在反向传播中也更加有效。Leaky Relu的表达式如下。
f(x)=max(0.01x,x)\begin{aligned} f(x)=max(0.01x,x) \end{aligned}f(x)=max(0.01x,x)
池化层
池化也叫下采样\color{blue}{下采样}下采样,通常在连续的卷积层之间会插入一个池化层,它的作用是逐渐降低数据单元的尺寸,有效减少网络中的参数数量,降低计算资源的消耗,增强模型的鲁棒性和泛化能力,同时也能有效控制过拟合。常见的池化操作包括最大池化(MaxPooling)和平均池化(AveragePooling)\color{blue}{最大池化(Max Pooling)和平均池化(Average Pooling)}最大池化(MaxPooling)和平均池化(AveragePooling)。最大池化的原理是选取局部区域内的最大值作为输出,这样可以保留输入数据的主要特征。下图是一个2×22 \times 22×2的池化滑窗以2为步长在一个4×44 \times 44×4的矩阵上进行最大池化的过程。以输出结果中的第一个位置为例,max(12,20,8,12)=20max(12,20,8,12)=20max(12,20,8,12)=20,该区域完成池化后向右移动一个步长继续池化,直到所有位置都池化完成。若是平均池化,就可以取平均值而不是最大值啦🪐🪐🪐
全连接层
全连接层的目的是将前面通过卷积、池化等操作提取到的特征图进行分类或回归。这个层次的主要任务是将高维度的特征图转换为一维向量并输出到下一个层级进行处理\color{blue}{将高维度的特征图转换为一维向量并输出到下一个层级进行处理}将高维度的特征图转换为一维向量并输出到下一个层级进行处理。与卷积层、池化层不同,全连接层中每个神经元都与前一层中的所有神经元相连,所以叫做全连接。
该层输入的数据通常是经过展平处理的,因此可以理解为把二维或三维的特征图变成了一维向量,在进行分类或者回归分析时,可以使用常见的多层感知器(MLP)。如此设计的好处在于,全连接层可以学习到各种组合的特征,从而提高模型的表达能力。同时,由于每个神经元之间都有连接,它们能够共享一些重要信息,减小模型参数的数量和计算量。
看完上段话是不是有点一头雾水腻,那就举个栗子\color{blue}{举个栗子}举个栗子:
如下图所示,9×99 \times 99×9的图像经过一系列的卷积、池化、激活函数操作后,即将进入到全连接层中。
到了全连接层时,全连接层是一维数据,所以要将feature map变为一维。提问❓❓❓:它是怎么样把二维的输出,转换成一维形式的呢?\color{blue}{它是怎么样把二维的输出,转换成一维形式的呢?}它是怎么样把二维的输出,转换成一维形式的呢?假设,假设哈,在到达全连接层时是3个2×22 \times 22×2的矩阵,此时这12×112 \times 112×1(平展开)向量中的每一个元素就是输入层的一个神经元,将这3个矩阵变为一维的操作如下图左所示。然后将得到的一维向量送入到网络中以概率(Softmax)\color{blue}{概率(Softmax)}概率(Softmax)的方式判断是X还是非X。粗线表示特征明显的数据,即是X的特征与不是X的特征。根据计算得到的权重矩阵,对其进行加权求和,就得到了每个分类的得分,然后根据softmax函数进行概率计算,得到X的概率为0.92,不是X的概率为0.5,最终得到输出结果,过程如下图右所示。
CNN图像分类实战
学完了卷积神经网络的基本构成之后,咱们就可以愉快的使用它进行分类啦🙌🙌🙌
下图的(a)和(b)分别是煤炭coal和矸石gangue(夹杂在煤炭中的石块杂质)的图像,下面呢咱们就用CNN对这两类图像进行二分类\color{blue}{二分类}二分类,代码非常简单,只有三个文件:model.py、train.py和predict.py\color{blue}{model.py、train.py和predict.py}model.py、train.py和predict.py,相信你看懂之后会对CNN的结构及实现图片分类有更多的认识嗷🍕🍕🍕
在进行任务之前呢,都毫无例外先准备数据集,若是希望效果精度嘎嘎好的话,数据集的图片原则上是越多越好。下面呢咱先上代码,代码中都有详细注释,保你一看就懂。在model.py文件中:
python
复制代码
model.py
import torch.nn as nnclass CNN(nn.Module):def __init__(self):super(CNN, self).__init__()self.covn1 = nn.Sequential( # 原始图片为(1,224,224)nn.Conv2d(1, 8, 5, 2), # 卷积,卷积核5×5,步长2, (8,110,110)nn.ReLU(), # ReLU激活函数nn.MaxPool2d(2), # 最大池化,池化核2×2,步长2, (8,55,55))self.conv2 = nn.Sequential(nn.Conv2d(8, 16, 3, 1), # (16,53,53)nn.ReLU(),nn.MaxPool2d(2), # (16,26,26))self.conv3 = nn.Sequential(nn.Conv2d(16, 32, 3, 1), # (32,24,24)nn.ReLU(),nn.MaxPool2d(2), # (32,12,12))self.conv4 = nn.Sequential(nn.Conv2d(32, 64, 3, 1), # (64,10,10)nn.ReLU(),nn.MaxPool2d(2), # (64,5,5))self.conv5 = nn.Sequential(nn.Conv2d(64, 64, 5, 1), # (64,1,1))self.layer1 = nn.Linear(64*1*1, 2) # 全连接层将它展平 2类# initial weightsfor m in self.modules():if isinstance(m, nn.Conv2d):nn.init.kaiming_normal_(m.weight, mode="fan_out")if m.bias is not None:nn.init.zeros_(m.bias)elif isinstance(m, (nn.BatchNorm2d, nn.GroupNorm)):nn.init.ones_(m.weight)nn.init.zeros_(m.bias)elif isinstance(m, nn.Linear):nn.init.normal_(m.weight, 0, 0.01)nn.init.zeros_(m.bias)
#前向传播def forward(self, x):x = self.covn1(x)x = self.conv2(x)x = self.conv3(x)x = self.conv4(x)x = self.conv5(x)x = x.view(x.size(0), -1)output = self.layer1(x)return output
在model.py中定义了一个CNN类\color{blue}{CNN类}CNN类,构造了一个简单的网络结构,包含卷积、激活、池化、全连接层。代码最后的前向传播目前不了解没关系,只需要知道这是一种训练方式就行,这一part可以下节仔细讲讲。由于咱们主要是学习CNN的结构,故这里就不再给出训练和预测\color{blue}{训练和预测}训练和预测的详细代码啦,感兴趣的同学可以访问<https://github.com/renqi1/Coal_Gangue_Classification运行完整代码嗷⛳⛳⛳