网络架构学习1

文章目录

  • 网络架构学习1
    • 1. 传统CNN卷积神经网络
      • 1.1 基本思想
      • 1.2 VCG16(经典CNN网络架构之一)
    • 2. 两种经典的网络架构
      • 2.1 FCN网络
      • 2.2 U-Net网络
    • 3. FCNVMB(基于U-Net架构)
      • 3.1 FCNVMB 主要思想
      • 3.2 FCNVMB 提供的其他思想

网络架构学习1

1. 传统CNN卷积神经网络

1.1 基本思想

CNN网络主要得过程:输入层-卷积层(ReLU)-池化层-全连接层-输出层 如下图所示:在这里插入图片描述
从传统的CNN网络架构中,我们可以看出CNN网络的最后加入一些全连接层,经过softmax后就可以获得类别概率信息,这个概率信息是一维的,即只能标识整个图片的类别,不能标识每个像素点的类别。
全连接层
在 CNN 结构中,经多个卷积层和池化层后,连接着1个或1个以上的全连接层,全连接层中的每个神经元与其前一层的所有神经元进行全连接.全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息。最后全连接层输出进行分类。
在这里插入图片描述

1.2 VCG16(经典CNN网络架构之一)

在这里插入图片描述其中一共有13个卷积层;5个池化层和3个全连接层。其中

  • 卷积层:全部都是3*3的卷积核+ReLU激活函数 提取图像局部特征
  • 池化层:都是2x2的池化核和步长2,减小特征图的大小
  • 全连接层:包含2个全连接层,每个全连接层包含4096个神经元,用于分类输出
  • 输出层:一个大小为1000的全连接层,使用softmax激活函数,生成1000个类别的概率分布

从结构图可以看出,VCG有很明显的优缺点;其中

优点

  • VCG16网络是相对比较深的网络架构,随着卷积层的通道数增多,则提取的特征信息也越多,则可以提取更多的深层特征;
  • 其次就是卷积核较小且卷积核都是一样的,有助于更好的提取特征信息;

缺点

  • 网络参数过多,如果训练数据少就可能会发生过拟合,假设我们训练数据少,就要考虑用数据增强或则正则化策略去解决(数据增强是通过对训练数据进行一系列变换来生成新的数据样本,从而增加数据样本的数量和多样性;正则化是通过修改模型的损失函数,以鼓励模型保持简单的一种技术)
  • 其次就是输入图像尺寸不能太小(因为经历了5个池化层,可能多次池化后会导致特征图太小了)

如下是一个代码的主要过程思路:

    def __init__(self):super(vgg16, self).__init__()self.model = models.Sequential([   # 假设输入图像尺寸为224*224*3#64个通道;3x3的卷积核,步长为1,padding=same填充,卷积两次,再经ReLU激活,输出的尺寸大小为224x224x64Conv2D(filters=64, kernel_size=(3, 3), padding='same', activation='relu'),Conv2D(filters=64, kernel_size=(3, 3), padding='same', activation='relu'),BatchNormalization(),#最大池化层采用2*2 步长为2 输出的尺寸大小为 112x112x64MaxPooling2D(),#128个通道 3x3的卷积核,步长为1,padding=same填充,卷积两次,再经ReLU激活,输出的尺寸大小为112x112x128Conv2D(filters=128, kernel_size=(3, 3), padding='same', activation='relu'),Conv2D(filters=128, kernel_size=(3, 3), padding='same', activation='relu'),BatchNormalization(),# 最大池化层采用2*2 步长为2 输出的尺寸大小为 56x56x128MaxPooling2D(),# 256个通道 3x3的卷积核,步长为1,padding=same填充,卷积三次,再经ReLU激活,输出的尺寸大小为56x56x256Conv2D(filters=256, kernel_size=(3, 3), padding='same', activation='relu'),Conv2D(filters=256, kernel_size=(3, 3), padding='same', activation='relu'),Conv2D(filters=256, kernel_size=(3, 3), padding='same', activation='relu'),BatchNormalization(),# 最大池化层采用2*2 步长为2 输出的尺寸大小为 28x28x256MaxPooling2D(),# 512个通道 3x3的卷积核,步长为1,padding=same填充,卷积三次,再经ReLU激活,输出的尺寸大小为28x28x512Conv2D(filters=512, kernel_size=(3, 3), padding='same', activation='relu'),Conv2D(filters=512, kernel_size=(3, 3), padding='same', activation='relu'),Conv2D(filters=512, kernel_size=(3, 3), padding='same', activation='relu'),BatchNormalization(),# 最大池化层采用2*2 步长为2 输出的尺寸大小为 14x14x512MaxPooling2D(),# 512个通道 3x3的卷积核,步长为1,padding=same填充,卷积三次,再经ReLU激活,输出的尺寸大小为14x14x512Conv2D(filters=512, kernel_size=(3, 3), padding='same', activation='relu'),Conv2D(filters=512, kernel_size=(3, 3), padding='same', activation='relu'),Conv2D(filters=512, kernel_size=(3, 3), padding='same', activation='relu'),BatchNormalization(),# 最大池化层采用2*2 步长为2 输出的尺寸大小为 7x7x512MaxPooling2D(),#将数据拉平成向量,变成一维51277=25088Flatten(),# 经过两层1x1x4096,一层1x1x1000的全连接层(共三层),经ReLU激活Dense(4096, activation='relu'),Dense(4096, activation='relu'),# 通过softmax输出1000个预测结果Dense(10, activation='softmax')])

2. 两种经典的网络架构

2.1 FCN网络

FCN论文链接:Fully Convolutional Networks for Semantic Segmentation
对比传统的CNN网络,只进行了图像层面上的分类,而FCN的提出,对输入的图像进行了像素级分类的全卷积网络(这是开创性的),从而解决了语义级别的图像分割问题。(语义分割:图像中的每个像素分配给其所属的语义类别,即为图像中的每个像素标记一个类别标签;旨在理解图像中的物体和场景的整体语义信息,而不仅仅是对不同物体的像素进行分割)
例如下图:
在这里插入图片描述
在这里插入图片描述
下面主要分享的是FCN在CNN基础上的主要改进:

  • FCN提出了端到端,像素到像素卷积神经网络,搭建了一个全卷积神经网络,输入任意尺寸的图像,经过学习后输出相同尺寸的输出。
    在这里插入图片描述
  • FCN将全连接层转换为卷积层,则保留了原始空间的特征信息; 添加反卷积层进行向上采样,从而获得更接近真实图像的输出;添加了skip-connection结构(跳跃连接基本思想是在网络的某些层中,将输入直接连接到输出,以允许信息在不同层之间跳跃传递,可以提高了模型性能和训练速度);他的过程结构如下:
    在这里插入图片描述
    FCN网络在基于几个CNN网络架构下测试,发现基于VCG16网络表现出的性能是最好的,所以在FCN网络架构的pool5之前都是VCG16的架构。如下是具体的一个过程。从上面可以知道VCG16网络每个卷积核都是33且stride=1,padding=1; 池化都是22(直接对半)。
    (1)第一阶段:
    FCN32S:把全连接层转换为卷积层,且直接进行上采样32倍变为大图(无跳跃连接)
    在这里插入图片描述

(2)FCN16S:第二阶段:使用跳跃连接将conv7+pool4进行特征融合提升精确性
在这里插入图片描述

(3)FCN8S:使用跳跃连接将conv7+pool4+pool3进行特征融合提升精确性
在这里插入图片描述
在这里插入图片描述
从FCN网络训练结果看出,他得到的结果不够精细,采样结果还是比较模糊和平滑,对一些细节的处理还不是很好。但是在这篇论文中提供的思路是值得我们去学习和扩展的。

2.2 U-Net网络

U-Net论文地址:Convolutional Networks for Biomedical Image Segmentation

U-Net提出的初衷和fcn一样,也是为了解决医学图像分割的问题,他主要得特点是:

  • 端到端得网络,对称的网络结构(编码器-解码器结构)
  • skip-connection(跳跃连接)
    在这里插入图片描述在U-Net网络结构中:
    1. 左侧收缩路径(编码器Ecoder)功能是特征提取;主要过程是:卷积和最大池化。进行了4次像下采样,通道filters = [64, 128, 256, 512, 1024];。其中padding=0; strid为1;(没有进行边缘填充,每次卷积都会有损失,则会导致输入图像和输出图像分辨率并不一致。如果有填充,就会有误差存在,随着模型越深那受到padding的影响也越大)。
    1. 右侧扩展路径(解码器Decoder)功能是恢复特征图;主要过程是:卷积,上采样和skip-connection。
    1. skip-connection(挺重要的一个点,对比FCN)
      主要功能是进行特征融合,图中灰色箭头表示。将浅层的位置信心和深层的语义信息进行concat操作(浅层特征有较高的分辨率和较少的语义信息;深层特征反之)。具体的思想过程举例:
      假设特征图像尺寸: 256 ∗ 256 ∗ 64 256*256*64 25625664( 长 ∗ 宽 ∗ 通道数 长*宽*通道数 通道数)和另一个特征图像: 256 ∗ 256 ∗ 32 256*256*32 25625632进行concat融合,这直接会得到一个 256 ∗ 256 ∗ 96 256*256*96 25625696的特征图
      若特征图像尺寸: 256 ∗ 256 ∗ 64 256*256*64 25625664( 长 ∗ 宽 ∗ 通道数 长*宽*通道数 通道数)和另一个特征图像: 240 ∗ 240 ∗ 32 240*240*32 24024032进行concat融合,他们图像大小不相等有两种方法:
      a.对特征图 256 ∗ 256 ∗ 64 256*256*64 25625664进行裁剪变为 240 ∗ 240 ∗ 64 240*240*64 24024064,然后再和 240 ∗ 240 ∗ 32 240*240*32 24024032进行concat得到 240 ∗ 240 ∗ 96 240*240*96 24024096的特征图
      b. 对特征图 256 ∗ 256 ∗ 32 256*256*32 25625632进行填充变为 256 ∗ 256 ∗ 32 256*256*32 25625632,然后再和 256 ∗ 256 ∗ 64 256*256*64 25625664进行concat得到 256 ∗ 256 ∗ 96 256*256*96 25625696的特征图在这一个结构中采用的是裁剪+拼接(copy+crop
      注::FCN的skip-connection是加操作,即像素点相加;U-Net网络是叠操作(copy+crop)

3. FCNVMB(基于U-Net架构)

3.1 FCNVMB 主要思想

如下是FCNVMB网络结构图:
在这里插入图片描述数据集层级关系:在这里插入图片描述
FCNVMB是基于U-Net网络架构,结合上面的U-Net网络结构,FCNVMB也是一个对称的编码器-解码器结构;中间也采用了卷积,池化,反卷积和skip-connection; 但在U-Net下有创新之处如下:

  • 原始UNet模型是在图像处理领域提出的,通常用于处理RGB颜色通道表示的图像信息。在FCNVMB中主要处理地震数据,将不同位置生成的"炮集"作为输入的通道,进而输入通道的数量等于每个模型的源数量(每个炮集代表了来自相同模型的不同源位置的地震数据) —即输入数据发生了变化
  • 原始UNet的输出和输入在相同的图像领域内,在FCNVMB中 中为了实现地震速度模型的构建,将数据从(x, t)域映射到(x, z)域,并同时构建速度模型;并将输出层的通道修改为 1。—输出数据发生了变化
    如下图:
    地震数据(x, t)域
    在这里插入图片描述
    速度模型(x, z)域
    在这里插入图片描述
  • FCNVMB是基于监督的深度全卷积神经网络,在这个速度模型的构建过程中,论文采用了两种数据集一类是用声波方程作为正演模型来合成的模拟数据集;一类是采用Seg盐模拟数据对;将这些数据对 一部分用于训练;一部分用于测试。所以这篇论文我理解的大致思路就是:训练集数据集利用FCNVMB网络进行训练,学习地震数据和速度模型之间的一种映射关系,不断优化参数,训练好后我们再用测试集数据去进行预测。

监督网络:用大量的有标签的数据训练来训练模型,模型最终学习到输入和输出标签之间的相关性。监督学习主要是学习一种映射关系;
无监督网络:不依赖任何标签值(用无标签的数据训练),通过对数据内在特征的挖掘,找到样本间的关联。比如聚类算法;

  • FCNVMB代码主要的理解
class FCNVMB(nn.Module):def __init__(self, n_classes, in_channels, is_deconv, is_batchnorm):'''Network architecture of FCNVMB:param n_classes:       Number of channels of output (any single decoder) 输出通道数:param in_channels:     Number of channels of network input 输入通道树:param is_deconv:       Whether to use deconvolution 是否使用反卷积:param is_batchnorm:    Whether to use BN 是否使用BN'''super(FCNVMB, self).__init__()self.is_deconv = is_deconvself.in_channels = in_channelsself.is_batchnorm = is_batchnormself.n_classes = n_classesfilters = [64, 128, 256, 512, 1024] #表示网络的通道数,这些整数用于定义U-Net模型的不同层级的通道数self.down1 = unetDown(self.in_channels, filters[0], self.is_batchnorm)self.down2 = unetDown(filters[0], filters[1], self.is_batchnorm)self.down3 = unetDown(filters[1], filters[2], self.is_batchnorm)self.down4 = unetDown(filters[2], filters[3], self.is_batchnorm)self.center = unetConv2(filters[3], filters[4], self.is_batchnorm)self.up4 = unetUp(filters[4], filters[3], self.is_deconv)self.up3 = unetUp(filters[3], filters[2], self.is_deconv)self.up2 = unetUp(filters[2], filters[1], self.is_deconv)self.up1 = unetUp(filters[1], filters[0], self.is_deconv)self.final = nn.Conv2d(filters[0], self.n_classes, 1)def forward(self, inputs, label_dsp_dim):''':param inputs:          Input Image:param label_dsp_dim:   Size of the network output image (velocity model size):return:'''down1 = self.down1(inputs)down2 = self.down2(down1)down3 = self.down3(down2)down4 = self.down4(down3)center = self.center(down4)up4 = self.up4(down4, center)up3 = self.up3(down3, up4)up2 = self.up2(down2, up3)up1 = self.up1(down1, up2)up1 = up1[:, :, 1:1 + label_dsp_dim[0], 1:1 + label_dsp_dim[1]].contiguous()return self.final(up1)

(1) 其中unetDown函数包含上采样过程:经过卷积和池化

class unetDown(nn.Module):def __init__(self, in_size, out_size, is_batchnorm):'''Downsampling Unit[Affiliated with FCNVMB]:param in_size:         Number of channels of input:param out_size:        Number of channels of output:param is_batchnorm:    Whether to use BN'''super(unetDown, self).__init__()self.conv = unetConv2(in_size, out_size, is_batchnorm)self.down = nn.MaxPool2d(2, 2, ceil_mode=True)def forward(self, inputs):''':param inputs:          Input Image:return:'''outputs = self.conv(inputs)outputs = self.down(outputs)return outputs

(2) 其中UnetCenter部分
主要是增加了通道数,图像分辨率不变

(3) 其中unetUp函数:提供了两种方式的上采样,ConvTranspose2d:创建反卷积层进行上采样(U-Net使用的则是这一种);UpsamplingBilinear2d:传统的双线性插值上采样(FCN使用的是这一种); 另一个是skip-connection:是采用U-Net网络结构中的叠操作(copy+crop),并且是填充大小。

class unetUp(nn.Module):def __init__(self, in_size, out_size, is_deconv):'''Upsampling Unit[Affiliated with FCNVMB]:param in_size:      Number of channels of input:param out_size:     Number of channels of output:param is_deconv:    Whether to use deconvolution'''super(unetUp, self).__init__()self.conv = unetConv2(in_size, out_size, True)# Transposed convolutionif is_deconv:self.up = nn.ConvTranspose2d(in_size, out_size, kernel_size=2, stride=2)else:self.up = nn.UpsamplingBilinear2d(scale_factor=2)def forward(self, inputs1, inputs2):''':param inputs1:      Layer of the selected coding area via skip connection:param inputs2:      Current network layer based on network flows:return:'''outputs2 = self.up(inputs2)offset1 = (outputs2.size()[2] - inputs1.size()[2])offset2 = (outputs2.size()[3] - inputs1.size()[3])padding = [offset2 // 2, (offset2 + 1) // 2, offset1 // 2, (offset1 + 1) // 2]# Skip and concatenateoutputs1 = F.pad(inputs1, padding)return self.conv(torch.cat([outputs1, outputs2], 1))

3.2 FCNVMB 提供的其他思想

(1)VMB的局限1:训练数据集的选择;FCNVMB网络结构很依赖选择的数据集,直接使用经过训练的网络来测试复杂(例如SEG盐模型)或真实模型会很困难。如实验中对数据进行不加盐的预测(使用 10 个不含盐的训练样本进行训练),用现有的FCNVMB和FWI去预测,其预测结果如下,VMB的性能结构并没有FWI好
在这里插入图片描述
结合这个问题,一方面我们可以增强数据,增加数据的多样性(对现有数据进行变换、旋转、缩放),另一方面是引入迁移学习,迁移学习主要思想:将在一个任务上学到的知识或模型应用于解决另一个相关任务(尤其是新任务的数据集相对较小或缺乏标注时),则可以使用预训练网络作为初始化网络,目的是更有效地显示输入和输出之间的非线性映射,而不仅仅是让机器记住数据集的特征。
(2) 低频信息的重要性。
低频信息的在论文中提到当低频信息被移除时(利用技术滤除低频信息进行实验),速度模型的结构边界变得不太清晰,背景速度层次略显模糊。这表明低频信息对于提高速度模型预测的精度和清晰度非常重要。VMB的局限2:但是如何获取低频信息是一个难点。(为什么低频信息回很重要呢,多少hz才算低频?)
(3)作者在最后提出了另一个思想即利用生成对抗网络(GAN): 生成对抗网络包含一个生成模型和一个判别模型(一种基于有限开放数据集的半监督学习网络)其中

  • 生成器:其任务是尽生成模仿训练集中的真实样本;
  • 判别器:判别模型一般情况下是一个二分类器,目标是判别输入是真实数据还是生成的样本。
  • 博弈过程:训练中,生成器和判别器相互竞争。生成器的目标是生成能够欺骗判别器的伪造数据,而判别器的目标是尽量准确地识别伪造数据。这个博弈过程推动了生成器和判别器不断完善
  • 训练过程: 训练过程包括多轮的生成器和判别器之间的竞争。通过这个过程,生成器逐渐学习生成逼真的数据,而判别器逐渐学习变得更善于区分真实和伪造数据。
    目前是CNN和GAN进行结合的网络即DCGAN 网络,具体的网络结构还未去了解过。

(4)作者论文提到以后可能得一个研究方向是去揭示传统反演方法与特定网络之间的潜在关系。我觉得挺有趣的,就像本论文的VMB,他其实就是在传统经典的网络架构上进行了改进,将他巧妙的应用到地震反演中并修改了输入输出。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/151055.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

QQ云端机器人登录系统php源码开心版

可能很多人不知道这源码有什么用,这款源码主要是针对群机器人爱好者的, 这是一个通过对接挂机宝里面机器人框架的一个网页站点, 用户通过网页登录 QQ 账号至挂机宝里面框架(可扫码登录、账密登录、跳转 QQ 快捷登录)…

2.OsgEarth封装

环境:Osg3.6.5 OsgEarth3.2 Qt5.15.2 基于qt将osgEarth封装,在Qt中作为GLWidget进行呈现。 1.Earth类的封装 基于地球的初始化顺序进行了封装,并暴露出了一些必要的属性,类似viwer、map、mapNode等。最为重要的是…

CentOS 搭建本地 yum 源方式 安装 httpd 服务

CentOS 搭建本地 yum 源方式 安装 httpd 服务 修改 yum 源 挂载光驱 mkdir -p /mnt/cdrom mount /dev/cdrom /mnt/cdromvi /etc/fstab追加以下内容: /dev/cdrom /mnt/cdrom iso9660 defaults 0 0手动修改CentOS-Base.repo 备份 yum 源配置文件 mv /etc/yum.re…

Docker仓库

目录 1、registry私有仓库 2、insecure registry 3、配置镜像加速器 4、仓库加密 5、仓库认证 6、harbor企业级私有仓库 1、registry私有仓库 官网: Registry | Docker Docs 拉取registry镜像 docker pull registry 运行registry仓库 docker run -d -p 5000:5…

《论文阅读》LORA:大型语言模型的低秩自适应 2021

《论文阅读》LORA: LOW-RANK ADAPTATION OF LARGE LAN-GUAGE MODELS 前言简介现有方法模型架构优点前言 今天为大家带来的是《LORA: LOW-RANK ADAPTATION OF LARGE LAN-GUAGE MODELS》 出版: 时间:2021年10月16日 类型:大语言模型的微调方法 关键词: 作者:Edward Hu,…

Linux下自动挂载U盘或者USB移动硬盘

最近在折腾用树莓派(实际上是平替香橙派orangepi zero3)搭建共享文件服务器,有一个问题很重要,如何在系统启动时自动挂载USB移动硬盘。 1 使用/etc/fstab 最开始尝试了用/etc/fstab文件下增加:"/dev/sda1 /home/orangepi/s…

Java 反射机制详解

目录 一. 前言 二. 反射基础 2.1. Class 类 2.2. 类加载 三. 反射的使用 3.1. Class类对象的获取 3.2. Constructor类及其用法 3.3. Field类及其用法 3.4. Method类及其用法 四. 反射机制执行的流程 4.1. 反射获取类实例 4.2. 获取构造器的过程 4.3. 反射获取方法…

javaEE -8(9000字详解网络编程)

一:网络编程基础 1.1 网络资源 所谓的网络资源,其实就是在网络中可以获取的各种数据资源,而所有的网络资源,都是通过网络编程来进行数据传输的。 用户在浏览器中,打开在线视频网站,如优酷看视频&#xff…

什么?Postman也能测WebSocket接口了?

01、WebSocket 简介 WebSocket是一种在单个TCP连接上进行全双工通信的协议。 WebSocket使得客户端和服务器之间的数据交换变得更加简单,允许服务端主动向客户端推送数据。在WebSocket API中,浏览器和服务器只需要完成一次握手,两者之间就直…

PyCharm社区版安装

PyCharm社区版安装 到中国官网下载 https://www.jetbrains.com/zh-cn/pycharm/download/?sectionwindows 首次创建项目,会自动下载安装Python 3.9 社区版的区别 社区版的区别

数据结构 C语言 2.1 线性表抽象数据类型 2.2 小议顺序表

一、线性表抽象数据类型 线性表的定义 定义:零个或多个数据元素的有限序列 线性表的特点: 1.它是一个序列 数据元素之间是有序的 数据元素之间是一对一的关系 2.有限性 线性表的数据元素个数是有限的 注意:零个数据元素的有限序列又…

可图性判断(图论)

如图所示: 1.去arr[i]首元素, 后面arr[i]个元素减一 2.排序,以此类推 3.最后如果出现负数则不可图 4.最后元素为0,则可图 问题 L: Degree Sequence of Graph G代码如下: