FSRCNN:加速超分辨率卷积神经网络,SRCNN的加速版

paper:https://arxiv.org/pdf/1608.00367

code: https://github.com/yjn870/FSRCNN-pytorch/tree/master

目录

1. 动机

2. 方法

3. 代码对比

 4. 实验结果


1. 动机

        作者此前提出的SRCNN证明了CNN在图像超分领域的有效性。然而,SRCNN计算效率较低,不能达到实时性能。因此,该作者重新设计了SRCNN的网络,以提升推理速度。

改进点包括三个方面:

  • 1)在网络末端引入了一个反卷积层,用于将原始分辨率的feature map映射到高分辨率图像;
  • 2) 引入了沙漏型body网络,输入特征的通道维度先缩小再扩大,以降低计算量;
  • 3) 采用更小的卷积核,但层次更深了;

所提出的网络能够提速40倍,同时SR质量也更好。

2. 方法

        原始SRCNN有一个预处理步骤,即先将原图上采样,然后再送入网络,这无疑增加了计算量。在FSRCNN中,去掉了这个步骤,直接从原始分辨率开始,最终得到高分辨率结果。此外,如何缩小计算量也是FSRCNN重点考虑的问题,原始SRCNN虽然层数较少,但卷积核较大(9*9),因此FSRCNN探索了更小的卷积核,同时增加网络深度,整体的计算量能够降低不少。

        根据上述观察,我们研究了一种更简洁、更高效的网络结构,用于快速准确的图像SR。为了解决第一个问题,我们采用反卷积层来代替双三次插值。为了进一步减轻计算负担,我们在网络的末端放置了反卷积层1,那么计算复杂度仅与原始LR图像的空间大小成正比。值得注意的是,反褶积层不等于传统插值核的简单替代,如FCN[13],或像[14]这样的“unpooling+convolution”。相反,它由各种自动学习的上采样核(见图3)组成,它们共同工作生成最终的HR输出,并用均匀插值核替换这些反卷积滤波器将导致PSNR急剧下降(例如,对于×3,Set5数据集[15]上至少0.9 dB)。

        对于第二个问题,我们分别在映射层的开头和结尾添加一个收缩层和扩展层,以限制低维特征空间中的映射。此外,我们将单个宽映射层分解为几个具有固定滤波器大小为 3 × 3 的层。

        FSRCNN整体网络结构如下:

        FSRCNN可以分解为特征提取、收缩、映射、扩展和反卷积五个部分。前四个部分是卷积层,最后一个是反卷积层。为了更好地理解,我们将卷积层表示为 Conv(fi, ni, ci),将反卷积层表示为 DeConv(fi, ni, ci),其中变量 fi, ni, ci 分别表示滤波器大小、滤波器数量和通道数。

  • Feature extraction: 这部分类似于 SRCNN 的第一部分,但在输入图像上不同。FSRCNN 在原始 LR 图像上执行特征提取,无需插值;而且,卷积核大小从9变成了5。
  • Shrinking:使用1*1卷积将通道数降低;
  • Non-linear mapping:使用3*3卷积进行特征映射;
  • Expanding: 将通道维度再恢复回去;
  • Deconvolution:反卷积层,这一层用于对先前的特征进行上采样和聚合,得到高分辨率结果。

3. 代码对比

        首先看看SRCNN的代码:

from torch import nnclass SRCNN(nn.Module):def __init__(self, num_channels=1):super(SRCNN, self).__init__()self.conv1 = nn.Conv2d(num_channels, 64, kernel_size=9, padding=9 // 2)self.conv2 = nn.Conv2d(64, 32, kernel_size=5, padding=5 // 2)self.conv3 = nn.Conv2d(32, num_channels, kernel_size=5, padding=5 // 2)self.relu = nn.ReLU(inplace=True)def forward(self, x):x = self.relu(self.conv1(x))x = self.relu(self.conv2(x))x = self.conv3(x)return x

        再来看FSRCNN的代码:

import math
from torch import nnclass FSRCNN(nn.Module):def __init__(self, scale_factor, num_channels=1, d=56, s=12, m=4):super(FSRCNN, self).__init__()self.first_part = nn.Sequential(nn.Conv2d(num_channels, d, kernel_size=5, padding=5//2),nn.PReLU(d))self.mid_part = [nn.Conv2d(d, s, kernel_size=1), nn.PReLU(s)]for _ in range(m):self.mid_part.extend([nn.Conv2d(s, s, kernel_size=3, padding=3//2), nn.PReLU(s)])self.mid_part.extend([nn.Conv2d(s, d, kernel_size=1), nn.PReLU(d)])self.mid_part = nn.Sequential(*self.mid_part)self.last_part = nn.ConvTranspose2d(d, num_channels, kernel_size=9, stride=scale_factor, padding=9//2,output_padding=scale_factor-1)self._initialize_weights()def _initialize_weights(self):for m in self.first_part:if isinstance(m, nn.Conv2d):nn.init.normal_(m.weight.data, mean=0.0, std=math.sqrt(2/(m.out_channels*m.weight.data[0][0].numel())))nn.init.zeros_(m.bias.data)for m in self.mid_part:if isinstance(m, nn.Conv2d):nn.init.normal_(m.weight.data, mean=0.0, std=math.sqrt(2/(m.out_channels*m.weight.data[0][0].numel())))nn.init.zeros_(m.bias.data)nn.init.normal_(self.last_part.weight.data, mean=0.0, std=0.001)nn.init.zeros_(self.last_part.bias.data)def forward(self, x):x = self.first_part(x)x = self.mid_part(x)x = self.last_part(x)return x

        可以看出,FSRCNN网络结构更复杂了,但通过去掉预处理过程中的上采样、缩小卷积核、收缩映射过程中的通道数,最终可以得到更深却更轻量的网络,从而达到速度更快、效果更好的结果。

        下表展示了从SRCNN到FSRCNN的变化过程:

 4. 实验结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/644251.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

算法刷题day46

目录 引言一、树的重心二、毕业旅行问题三、高精度乘法 引言 今天复习了一下高精度的所有模板,包括加法、减法、乘法、除法,因为自己当时在蓝桥杯的时候没有看出来那个题使用高精度,因为对于一个数的大小和一个数的长度,自己有时…

深入探究音视频开源库WebRTC中NetEQ音频抗网络延时与抗丢包的实现机制

目录 1、引言 2、WebRTC简介 3、什么是NetEQ? 4、NetEQ技术详解 4.1、NetEQ概述 4.2、抖动消除技术 4.3、丢包补偿技术 4.4、NetEQ概要设计 4.5、NetEQ的命令机制 4.6、NetEQ的播放机制 4.7、MCU的控制机制 4.8、DSP的算法处理 4.9、DSP算法的模拟测试…

安卓玩机工具推荐----MTK芯片 简单制作线刷包 备份分区 备份基带 去除锁类 推荐工具操作解析

工具说明 在前面几期mtk芯片类玩机工具中解析过如何无官方固件从手机抽包 制作线刷包的步骤,类似的工具与操作有很多种。演示的只是本人片面的理解与一些步骤解析。mtk芯片机型抽包关键点在于..mt*****txt的分区地址段引导和 perloader临时分区引导。前面几期都是需…

网络中的基本概念

IP地址 概念: IP地址主要用于标识网络主机,其他网络设备的网络地址。简单来说:IP地址就是用于定位主机的网络地址。 如:送快递的快递员要知道收货地址,这里的收货地址就相当于IP地址。格式: IP地址是⼀个3…

matlab绘图之在曲线上加竖直线

matlab绘图之在曲线上加竖直线 clear clc close all x0:1:20; yxlsread(compare.xlsx,A1:A18); plot(y,b) grid on; hhaxis; hold on; plot([10,10],[hh(3),hh(4)],r--) plot([8,8],[hh(3),hh(4)],k--) plot([2,2],[hh(3),hh(4)],k--) xlabel(它是x轴) ylabel(它是y轴) text(4,…

k-均值聚类

K均值聚类(K-means clustering)是一种常用的无监督学习方法,用于将一组数据点划分为K个簇(cluster)。 它的目标是将相似的数据点归到同一个簇中,同时使得不同簇之间的数据点尽可能不相似。K均值聚类算法的…

【漏洞复现】卡车卫星定位系统 /user/create接口处存在未授权密码重置漏洞

免责声明:文章来源互联网收集整理,请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息或者工具而造成的任何直接或者间接的后果及损失,均由使用者本人负责,所产生的一切不良后果与文章作者无关。该…

护眼台灯哪个牌子最好?性价比最高的护眼台灯大爆料!

孩子上学后确实需要更多的关注和照顾。眼睛健康尤为重要,尤其是在学习时。选择一个好的护眼灯确实可以减轻眼睛疲劳和近视的风险。护眼台灯哪个牌子最好?目前市面上有比较好用的护眼台灯品牌有书客、飞利浦、松下等,这些品牌大都依靠自身的实…

Web3与物联网:探索区块链如何驱动智能设备的未来

引言 在数字化快速发展的时代,Web3技术和物联网(IoT)都成为了前沿技术的代表。两者的结合正逐渐展现出无限的可能性,尤其是在智能设备和数据安全方面。本文将深入探讨Web3如何与物联网相结合,以及这种结合对未来智能设…

做私域常见的运营模式

私域运营是现代电商的重要组成部分,通过直接与用户建立联系,提供个性化的服务和产品推荐,提高用户粘性和转化率。在私域运营过程中,针对不同类型的企业,也存有不同的运营模式,今天,我们就来了解…

npm详解和应用

文章目录 1. 定义与背景2. 核心功能a. 包管理b. 依赖管理c. 生命周期脚本与npm scripts 3. 其他重要特性与命令4. 国内镜像与加速5. 社区与生态6. npm工作原理a. 依赖解析与安装b. npm缓存c. npm link与本地开发 7. npm与Yarn、pnpm比较8. 结论 应用示例 npm(Node P…

无人机+光电吊舱:2K 30倍混合变焦光电吊舱技术详解

随着无人机技术的不断发展,光电吊舱作为无人机的重要组成部分,也在不断地进行技术升级和改进。其中,2K 30倍混合变焦光电吊舱技术是一种先进的技术,具有高度的应用价值和市场前景。 一、光电吊舱的基本概念 光电吊舱是一种安装在…