深度学习入门——卷积神经网络CNN基本原理+实战

CNN基本结构

​ 卷积神经网络(Convolutional Neural Network,CNN)是深度学习技术中最基础的网络结构,模拟人脑工作,具备强大的特征学习能力。CNN结构主要由两部分组成:特征提取部分和分类部分\color{blue}{特征提取部分和分类部分}特征提取部分和分类部分。特征提取部分网络将执行一系列卷积和池化操作。分类部分使用全连接层作为一个分类器,使用特征提取部分提取的特征为图像上的对象分配概率,即算法预测概率。CNN结构如下所示。

CNN结构.jpg

卷积层

​ 卷积层是CNN中最基础的结构,由许多卷积核(filter)\color{blue}{卷积核(filter)}卷积核(filter)组成,每个卷积核是一个针对局部区域的滤波模板,模板对应区域称之为感受野\color{blue}{感受野}感受野。卷积核以一定步长在图像矩阵上滑动,每到一个位置,卷积核对这个位置进行卷积操作,用图像矩阵上的值乘以卷积核中对应位置的权重,求和后得到卷积后的值。下图是一个2×22 \times 22×2的卷积核以1为步长在一个3×33 \times 33×3的矩阵上卷积的过程。以蓝色输出的位置为例,0×0+1×1+2×3+3×4=19\color{blue}{0×0+1×1+2×3+3×4=19}0×0+1×1+2×3+3×4=19 ,卷积完成后向右移动一个步长继续卷积,直到所有位置都卷积完毕。这样的结构在图像的不同区域都共享同样的卷积核参数,大大减少了网络的计算开销。

卷积.png

​ 总结:卷积层中的超参数包括卷积核个数、大小尺寸、步长和填充\color{blue}{卷积核个数、大小尺寸、步长和填充}卷积核个数、大小尺寸、步长和填充(尺寸大于1×11×11×1的卷积核或大于1的步长会导致卷积后的特征图小于卷积之前,所以有的网络会利用填充零元素的方法使特征图和卷积之前保持一致),那么输出特征图的大小可表示为:

{W2=W1−F+2×ps+1H2=H1−F+2×ps+1\begin{aligned} \left{ \begin{array}{l} {W_2} = \frac{{{W_1} - F + 2 \times p}}{s} + 1\ \ {H_2} = \frac{{{H_1} - F + 2 \times p}}{s} + 1 \end{array} \right. \end{aligned}⎩⎨⎧​W2​=sW1​−F+2×p​+1H2​=sH1​−F+2×p​+1​​

​ 其中,W1×H1{W_1} \times {H_1}W1​×H1​代表输入图像的尺寸,W2×H2{W_2} \times {H_2}W2​×H2​为输出图片的尺寸,FFF为卷积核的尺寸,ppp一般取值为0或1,sss为步长。

​ 看完这个公式我就要考考大家了:如果输入数据是32∗32∗33232332∗32∗3的图像,用10个5∗5∗35535∗5∗3的filter来进行卷积操作,指定步长为1,边界填充为2,那么最终输出的规模是多少腻❓❓❓(先自己动笔算算嗷)答案是:(32−5+2∗2)/1+1=32\color{blue}{(32-5+22)/1+1=32}(32−5+2∗2)/1+1=32,输出规模为32∗32∗103232*1032∗32∗10,经过卷积操作后也可以保持特征图长度、宽度不变。

​ 为了给模型引入非线性,卷积核计算的结果一般需要输入激活函数。激活函数是神经网络结构中的重要元素,通过非线性转换实现自动特征提取,避免了线性输入输出问题,增强了网络非线性学习和处理复杂数据集的能力。激活函数必须具有单调性和可微性才能保证偏导函数的有效性。常用的激活函数有以下几种:

1.Sigmoid函数\color{blue}{1. Sigmoid函数}1.Sigmoid函数

Sigmoid函数将神经网络的输出映射到[0,1]范围内的概率值,这些概率值可以用来表示分类问题中每个类别的置信程度或回归问题中的连续输出。函数的特点是它的输出值在输入值为0时达到最大值0.5,并且在输入值接近正无穷或负无穷时趋近于1或0,使得函数能够对输入进行二元分类。但是❗该函数收敛速度缓慢,在反向传播时会有梯度消失问题。Sigmoid函数如下所示。

f(x)=11+e−x\begin{aligned} f(x) = {1 \over {1 + {e^{ - x}}}} \end{aligned}f(x)=1+e−x1​​

2.Tanh函数\color{blue}{2. Tanh函数}2.Tanh函数

Tanh函数的取值范围为[-1,1],形状类似于Sigmoid函数,但Tanh函数在x等于0时,输出值为0,而Sigmoid函数在这点的输出为0.5,因此Tanh函数具有更强的非线性特征。此外,Tanh函数以原点为对称,解决了零均值问题,两端仍会存在梯度消失和幂运算耗时的弊端。表达式如下。

tanh⁡(x)=sinh⁡(x)cosh⁡(x)=ex−e−xex+e−x\begin{aligned} \tanh (x) = {{\sinh (x)} \over {\cosh (x)}} = {{{e^x} - {e^{ - x}}} \over {{e^x} + {e^{ - x}}}} \end{aligned}tanh(x)=cosh(x)sinh(x)​=ex+e−xex−e−x​​

3.Relu函数\color{blue}{3. Relu函数}3.Relu函数

当输入信号小于等于0时,Relu函数的输出为0,当输入信号大于0时,输出等于输入信号本身。此函数的特点就是简单、高效、计算速度非常快。Relu函数的导数恒为1或0,可以减少计算量,加速模型的训练过程,同时能有效避免梯度消失。表达式如下。

f(x)=max(0,x)\begin{aligned} f(x)=max(0,x) \end{aligned}f(x)=max(0,x)​

4.LeakyRelu函数\color{blue}{4. Leaky Relu函数}4.LeakyRelu函数

与Relu不同,Leaky Relu在输入值为负数时不会输出0,而是输出一个很小的值a(通常为0.01),这个小值可以帮助解决Relu的死亡神经元问题,即在训练的过程中,某些神经元可能永远不会被激活,从而导致它们对整个网络的贡献为0。此外,Leaky Relu函数能够更快的收敛,在反向传播中也更加有效。Leaky Relu的表达式如下。

f(x)=max(0.01x,x)\begin{aligned} f(x)=max(0.01x,x) \end{aligned}f(x)=max(0.01x,x)​

池化层

​ 池化也叫下采样\color{blue}{下采样}下采样,通常在连续的卷积层之间会插入一个池化层,它的作用是逐渐降低数据单元的尺寸,有效减少网络中的参数数量,降低计算资源的消耗,增强模型的鲁棒性和泛化能力,同时也能有效控制过拟合。常见的池化操作包括最大池化(MaxPooling)和平均池化(AveragePooling)\color{blue}{最大池化(Max Pooling)和平均池化(Average Pooling)}最大池化(MaxPooling)和平均池化(AveragePooling)。最大池化的原理是选取局部区域内的最大值作为输出,这样可以保留输入数据的主要特征。下图是一个2×22 \times 22×2的池化滑窗以2为步长在一个4×44 \times 44×4的矩阵上进行最大池化的过程。以输出结果中的第一个位置为例,max(12,20,8,12)=20max(12,20,8,12)=20max(12,20,8,12)=20,该区域完成池化后向右移动一个步长继续池化,直到所有位置都池化完成。若是平均池化,就可以取平均值而不是最大值啦🪐🪐🪐

池化.jpg

全连接层

​ 全连接层的目的是将前面通过卷积、池化等操作提取到的特征图进行分类或回归。这个层次的主要任务是将高维度的特征图转换为一维向量并输出到下一个层级进行处理\color{blue}{将高维度的特征图转换为一维向量并输出到下一个层级进行处理}将高维度的特征图转换为一维向量并输出到下一个层级进行处理。与卷积层、池化层不同,全连接层中每个神经元都与前一层中的所有神经元相连,所以叫做全连接。

​ 该层输入的数据通常是经过展平处理的,因此可以理解为把二维或三维的特征图变成了一维向量,在进行分类或者回归分析时,可以使用常见的多层感知器(MLP)。如此设计的好处在于,全连接层可以学习到各种组合的特征,从而提高模型的表达能力。同时,由于每个神经元之间都有连接,它们能够共享一些重要信息,减小模型参数的数量和计算量。

​ 看完上段话是不是有点一头雾水腻,那就举个栗子\color{blue}{举个栗子}举个栗子:

​ 如下图所示,9×99 \times 99×9的图像经过一系列的卷积、池化、激活函数操作后,即将进入到全连接层中。

全连接层(1).jpg

​ 到了全连接层时,全连接层是一维数据,所以要将feature map变为一维。提问❓❓❓:它是怎么样把二维的输出,转换成一维形式的呢?\color{blue}{它是怎么样把二维的输出,转换成一维形式的呢?}它是怎么样把二维的输出,转换成一维形式的呢?假设,假设哈,在到达全连接层时是3个2×22 \times 22×2的矩阵,此时这12×112 \times 112×1(平展开)向量中的每一个元素就是输入层的一个神经元,将这3个矩阵变为一维的操作如下图左所示。然后将得到的一维向量送入到网络中以概率(Softmax)\color{blue}{概率(Softmax)}概率(Softmax)的方式判断是X还是非X。粗线表示特征明显的数据,即是X的特征与不是X的特征。根据计算得到的权重矩阵,对其进行加权求和,就得到了每个分类的得分,然后根据softmax函数进行概率计算,得到X的概率为0.92,不是X的概率为0.5,最终得到输出结果,过程如下图右所示。

全连接层(2).jpg

CNN图像分类实战

​ 学完了卷积神经网络的基本构成之后,咱们就可以愉快的使用它进行分类啦🙌🙌🙌

​ 下图的(a)和(b)分别是煤炭coal和矸石gangue(夹杂在煤炭中的石块杂质)的图像,下面呢咱们就用CNN对这两类图像进行二分类\color{blue}{二分类}二分类,代码非常简单,只有三个文件:model.py、train.py和predict.py\color{blue}{model.py、train.py和predict.py}model.py、train.py和predict.py,相信你看懂之后会对CNN的结构及实现图片分类有更多的认识嗷🍕🍕🍕

煤和矸石.jpg

​ 在进行任务之前呢,都毫无例外先准备数据集,若是希望效果精度嘎嘎好的话,数据集的图片原则上是越多越好。下面呢咱先上代码,代码中都有详细注释,保你一看就懂。在model.py文件中:

python
复制代码
model.py
import torch.nn as nnclass CNN(nn.Module):def __init__(self):super(CNN, self).__init__()self.covn1 = nn.Sequential(       # 原始图片为(1,224,224)nn.Conv2d(1, 8, 5, 2),        # 卷积,卷积核5×5,步长2, (8,110,110)nn.ReLU(),                    # ReLU激活函数nn.MaxPool2d(2),              # 最大池化,池化核2×2,步长2, (8,55,55))self.conv2 = nn.Sequential(nn.Conv2d(8, 16, 3, 1),        # (16,53,53)nn.ReLU(),nn.MaxPool2d(2),               # (16,26,26))self.conv3 = nn.Sequential(nn.Conv2d(16, 32, 3, 1),       # (32,24,24)nn.ReLU(),nn.MaxPool2d(2),               # (32,12,12))self.conv4 = nn.Sequential(nn.Conv2d(32, 64, 3, 1),       # (64,10,10)nn.ReLU(),nn.MaxPool2d(2),               # (64,5,5))self.conv5 = nn.Sequential(nn.Conv2d(64, 64, 5, 1),       # (64,1,1))self.layer1 = nn.Linear(64*1*1, 2)  # 全连接层将它展平  2类# initial weightsfor m in self.modules():if isinstance(m, nn.Conv2d):nn.init.kaiming_normal_(m.weight, mode="fan_out")if m.bias is not None:nn.init.zeros_(m.bias)elif isinstance(m, (nn.BatchNorm2d, nn.GroupNorm)):nn.init.ones_(m.weight)nn.init.zeros_(m.bias)elif isinstance(m, nn.Linear):nn.init.normal_(m.weight, 0, 0.01)nn.init.zeros_(m.bias)
#前向传播def forward(self, x):x = self.covn1(x)x = self.conv2(x)x = self.conv3(x)x = self.conv4(x)x = self.conv5(x)x = x.view(x.size(0), -1)output = self.layer1(x)return output

​ 在model.py中定义了一个CNN类\color{blue}{CNN类}CNN类,构造了一个简单的网络结构,包含卷积、激活、池化、全连接层。代码最后的前向传播目前不了解没关系,只需要知道这是一种训练方式就行,这一part可以下节仔细讲讲。由于咱们主要是学习CNN的结构,故这里就不再给出训练和预测\color{blue}{训练和预测}训练和预测的详细代码啦,感兴趣的同学可以访问<https://github.com/renqi1/Coal_Gangue_Classification运行完整代码嗷⛳⛳⛳

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/418542.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RS-485通讯

RS-485通讯协议简介 与CAN类似&#xff0c;RS-485是一种工业控制环境中常用的通讯协议&#xff0c;它具有抗干扰能力强、传输距离远的特点。RS-485通讯协议由RS-232协议改进而来&#xff0c;协议层不变&#xff0c;只是改进了物理层&#xff0c;因而保留了串口通讯协议应用简单…

挑战杯参赛总结-时间序列预测

参赛任务&#xff1a; 目标&#xff1a;针对中国各个市区的不同年份二氧化碳排放量&#xff0c;预测未来年份的二氧化碳排放量。 不同与之前我学习过的波士顿房价预测机器学习-波士顿房价预测-CSDN博客 房价预测是通过学习与房价有关的很多特征&#xff0c;训练出一个模型来预…

【测试入门】测试用例经典设计方法 —— 因果图法

&#x1f525; 交流讨论&#xff1a;欢迎加入我们一起学习&#xff01; &#x1f525; 资源分享&#xff1a;耗时200小时精选的「软件测试」资料包 &#x1f525; 教程推荐&#xff1a;火遍全网的《软件测试》教程 &#x1f4e2;欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1…

AttributeError: module ‘openai‘ has no attribute ‘error‘解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

Zuul1.x 高并发下阻塞分析以及解决方案

背景 由于最近博主在压测接口的时候发现我接口出现卡死状态&#xff0c;最开始以为是我自己接口出现问题&#xff0c;单独压测我自己的服务&#xff08;不经过网关&#xff09;200/qps/10 次循环 是没问题&#xff0c;但是加上网关&#xff08;zuul 1.x&#xff09; 去发现 经…

React入门 - 08(组件拆分组件传值)

本章内容 目录 父组件向子组件传递数据子组件向父组件传递数据 上一节内容我们补充l了在 React使用 JSX语法的一些细节。本节我们继续使用 ”TodoList“ 案例来讲解一下”组件拆分与组件传值“ 父组件向子组件传递数据 打开一开始我们已经创建好的工程&#xff0c;现在我们用…

极狐GitLab 线下『 DevOps专家训练营』成都站开班在即

成都机器人创新中心联合极狐(GitLab)隆重推出极狐GitLab DevOps系列认证培训课程。该课程主要面向使用极狐GitLab的DevOps工程师、安全审计人员、系统运维工程师、系统管理员、项目经理或项目管理人员&#xff0c;完成该课程后&#xff0c;学员将达到DevOps的专家级水平&#x…

算法训练 day24 | 77. 组合

77. 组合 题目链接:组合 视频讲解:带你学透回溯算法-组合问题 回溯其实和递归是密不可分的&#xff0c;解决回溯问题标准解法也是根据三部曲来进行的。 1、递归函数的返回值和参数 对于本题&#xff0c;我们需要用一个数组保存单个满足条件的组合&#xff0c;还需要另一个结果数…

Bit.Store 加密卡集成主流 BRC20通证,助力 BTC 生态流动性

“Bit.Store 首创性的将包括 ORDI、SATS、以及 RATS 在内的主流 BRC20 资产集成到其加密卡支付中&#xff0c;通过以其推出的加密银行卡为媒介&#xff0c;助力 BTC 生态 Token 的流动性与消费。” 比特币网络在被设计之初&#xff0c;就是以一种去中心化、点对点的现金系统为定…

数据结构之二叉树的性质与存储结构

数据结构之二叉树的性质与存储结构 1、二叉树的性质2、二叉树的存储结构 数据结构是程序设计的重要基础&#xff0c;它所讨论的内容和技术对从事软件项目的开发有重要作用。学习数据结构要达到的目标是学会从问题出发&#xff0c;分析和研究计算机加工的数据的特性&#xff0c;…

python写完程序怎么运行

python有两种运行方式&#xff0c;一种是在python交互式命令行下运行; 另一种是使用文本编辑器直接在命令行上运行。 注&#xff1a;以上两种运行方式均由CPython解释器编译运行。 当然&#xff0c;也可以将python代码写入eclipse中&#xff0c;用JPython解释器运行&#xff0c…

用el-image-viewer实现全局预览图片

背景 在后台管理系统中&#xff0c;一些预览图片的场景&#xff0c;通常都是使用 el-image-viewer 去实现&#xff0c;但是如果多个地方都需要预览图片&#xff0c;又要重复的去写 el-image-viewer 以及一些重复的和预览相关的代码。 可以把预览图片的组件放在根文件&#x…