NTIRE 2023 Challenge on Efficient Super-Resolution——RepRFN:当RFDN遇到重参数化

RepRFN:当RFDN遇到重参数化


0. 简介

NTIRE 的全称为New Trends in Image Restoration and Enhancement Challenges,即“图像复原和增强挑战中的新趋势”,是CVPR(IEEE Conference on Computer Vision and Pattern Recognition)举办的极具影响力的计算机视觉底层任务比赛,主要涉及的研究方向有:图像超分辨率、图像去噪、去模糊、去摩尔纹、重建和去雾等。

其中在2023年,CVPR开展的NTIRE相关挑战有:

  1. 夜间摄影渲染(night photography rendering);

  2. 从图像中估计深度(HR depth from images of specular and transparent surfaces);

  3. 图像去噪(image denoising);

  4. 视频着色(video colorization);

  5. 阴影去除(shadow removal);

  6. 视频增强的质量评估(quality assessment of video enhancement);

  7. 双目超分辨率(stereo super-resolution);

  8. 光场图像超分辨率(light field image super-resolution);

  9. 图像4倍超分辨率(image super-resolution (×4));

  10. 360°全景图像和视频超分辨率(360° omnidirectional image and video super-resolution);

  11. 镜头到镜头的散景效果转换(lens-to-lens bokeh effect transformation);

  12. 实时4K超分辨率(real-time 4K super-resolution);

  13. 高分辨率图像非均匀去雾(HR nonhomogenous dehazing);

  14. 高效超分辨率(efficient super-resolution)。

同时,以上的这些挑战也蕴含着当前的一些研究难点及挑战,需要研究学者们集思广益,提出针对提升任务性能的想法,为共同解决近年来的难题贡献出一份力量。

本篇文章着重于NTIRE 2023高效超分辨率(efficient super-resolution)挑战赛的冠军方案的解读,学习能够提升任务的tricks,以期给相关的科研任务一些启发。NTIRE 2023高效超分辨率挑战赛的目标是以RFDN(AIM 2020 高效超分辨率冠军)为baseline,以尽量少的推理时间(runtime),参数量(parameters),计算量(FLOPs),激活值(activations)和显存占用(memory consumption)实现4倍超分,同时在DIV2K validation set上的PSNR至少要达到29.00dB

比赛提供的数据集有DIV2K数据集LSDIR数据集。DIV2K数据集包含1000张多样的2K分辨率的RGB图像,其中训练集有800张,验证集有100张,测试集有100张。LSDIR数据集有86991张高分辨率高质量的图像,其中训练集有84991张,验证集有1000张,测试集有1000张。


1. 摘要

为了解决在资源受限的设备上很难部署超分模型(模型参数、计算量过大)的问题,本文探索了轻量化超分中信息蒸馏机制(information distillation mechanism)和残差学习机制(residual learning mechanism) 在性能和效率上的差异,提出了基于重参数化(reparameterization) 的轻量级超分网络结构,叫做RepRFN。RepRFN能够高效地减少GPU占用和提高推理速度。

本文提出了一个多尺度特征融合结构(multi-scale feature fusion structrue) ,能够使得网络学习和聚合不同尺度的特征和具有高频信息的边缘。作者重新思考了整个网络框架存在的冗余性,尽可能移除一些不影响性能的冗余模块,从而降低模型的复杂度。此外,作者引入了一个基于傅里叶变换的损失函数,将图像从空间域变换到频率域,使得网络能够监督和学习图像的高频信息。

论文代码链接:https://github.com/laonafahaodange/RepRFN


2. 引言

近年来,许多基于CNN的SR网络被提出,也意味着CNN对图像SR的发展起着重要的作用。

  • 2014年,Dong等人提出了第一个基于CNN的超分方法——SRCNN。
  • Kim等人提出了一个更深(20层)的网络来提高超分性能——VDSR。
  • Lim等人使用局部和残差连接,提出了EDSR。

然而,大多数SR网络为了提高图像复原时的性能往往会牺牲效率。在某些情况下,实时性也会影响用户的体验。因此,如何高效地提取图像的边缘,纹理,结构和其他信息,同时平衡SR网络的性能和复杂程度是至关重要的研究,这决定了网络是否可以部署在资源受限的设备上。

针对上述情况,论文提出了一个重参数化残差特征网络(Reparameterized Residual Feature Network) ,也叫做RepRFN。作者设计了一个多分支结构,通过使用多个并行的不同尺寸的卷积核,提取不同感受野的特征,并使用局部残差连接(local residual connection) 进行特征融合(feature fusion)。为了高效提取边缘信息,在多分支结构中使用了边缘导向卷积块(Edge-oriented Convolution Block, ECB)中的Sobel分支和Laplace分支。在训练阶段,作者将SR任务看作是空间域学习和频域学习的多任务学习问题,使用基于傅里叶变换的损失函数,指导模型复原高频信息。实验表明,提出的RepRFN在性能和效率上取得了很好的均衡。

作者的贡献总结如下:

  • 首先,提出了基于重参数化的多尺度特征融合结构,通过多个并行的不同感受野的卷积和边缘导向卷积模块提取不同模型的特征,使用残差连接聚合这些特征,提高模型的特征表达能力;
  • 重新考虑了RFDN模型的结构,分析RFDN的冗余性,在作者的网络中移除了用于通道变换的 1 × 1 1\times1 1×1的卷积
  • 引入了基于傅里叶变换的损失函数,使得模型能够在训练过程中学到图像的频率信息,增强模型恢复频率细节的能力。

3. 相关工作

相关工作中回顾了一些主流的高效图像超分领域的方法。

  • Dong等人提出了第一个基于CNN的超分方法——SRCNN。
  • 比SRCNN速度快17倍——FSRCNN。
  • Kim等人提出了一个深度递归卷积网络——DRCN。
  • 在DRCN的基础上,结合递归和残差网络,DRRN诞生。
  • 2018年,NamhyukAhn等人使用群卷积(group convolution)提高网络效率,在级联模块之间使用类似于递归网络的机制共享参数,提出了轻量级级联残差网络——CARN。
  • Lai等人结合传统图像算法拉普拉斯金字塔与深度学习,实现多级超分辨模型——LapSRN。
  • Hui等人提出了一个信息蒸馏网络——IDN。
  • 基于IDN,信息多蒸馏网络IMDN由一系列级联的IMDB块组成,IMDN获得了AIM2019资源受限超分挑战赛的冠军。
  • Liu等人重新思考IMDN,提出了残差特征蒸馏网络——RFDN。
  • E-RFDN获得了AIM2020高效超分挑战赛的冠军。

4. 方法

  • 在4.1节中,作者提出了残差特征网络,与信息蒸馏机制对比,作者通过实验观察到残差特征机制信息蒸馏机制的差异。

  • 在4.2节中,作者回顾了残差特征网络的缺点,提出了一个多尺度特征融合的基于重参数化的轻量级SR网络RepRFN。

  • 在4.3节中,作者介绍了基于傅里叶变换的损失函数,将图像从空间域变到频率域,使得模型能够在训练过程学习到频率信息。

4.1 残差特征网络(RFN)

残差特征网络的结构如下图,包含浅层特征提取模块深层特征提取模块上采样模块。(这样的结构实际上已经是超分的经典结构了,比如SwinIR、HAT都基本由这三个模块构成,只不过各个模块内部的细节可能不一样,大部分人改进的地方都在深层特征提取模块中)浅层特征提取模块用来提取LR图像的浅层特征,深层特征提取模块对浅层特征进行进一步的非线性映射,得到深层特征。然后,通过残差连接将浅层特征和深层特征进行融合。最后,上采样模块对融合后的特征进行重新组合,得到重构的SR图像。

看上面的图,我们很容易知道:

  • 浅层特征提取模块由一个 3 × 3 3\times3 3×3的卷积层组成。
  • 深层特征提取模块由一组堆叠的残差特征块组成,能够逐步提取浅层特征,使用残差连接去集成浅层特征和深层特征,提高模型的特征表达能力。
  • 上采样模块由一个 3 × 3 3\times3 3×3的卷积层和一个PixelShuffle​层组成。

残差特征块的关键在于残差特征学习机制信息蒸馏机制是将输入特征沿着通道维度分为两个部分,一个部分保持不变,另外一个部分输入到下一个信息蒸馏模块中,进一步提取特征。经过几个蒸馏步骤之后,会沿着通道维度进行concatenate,从而完成特征融合操作,这样就实现了蒸馏信息的融合。然而,残差特征学习机制不一样,它不是沿着通道维度划分特征,而是直接将提取的特征输入到下一个模块,只是简单的addmerge每个模块提取的深层特征和浅层特征,这样能够避免占用显存过大的问题(这些问题往往是通道划分和concatenate操作造成的),加速推理时间。下图展示了几种不同的信息蒸馏模块,可以看到本文用到的残差特征块(RFB) 不是像RFDN-IDB那样使用通道划分,而是直接输入到下一个卷积层,使用残差融合代替了信息融合机制

同时,作者探索了信息蒸馏机制和残差学习机制在性能和效率之间的差异。下图的RFB1代表的是局部残差连接,RFB2代表的是全局残差连接,RFB3代表的是局部和全局残差连接的组合。Attention Layer使用的是和RFDN相同的增强空间注意力(ESA)。将没有任何残差连接的模型作为baseline模型。

从下表可以看出,全局残差连接带来的增益会少于局部残差连接

4.2 重参数化残差特征网络(RepRFN)

3 × 3 3\times3 3×3的卷积层通常用来提取特征,但是它的感受野太小了。其次,RFN模型的结构还是存在冗余。另外,在图像特征域提取和恢复高频信息仍有不足。因此,作者对RFN模型再进行改进,提出了一个多尺度特征融合的基于重参数化的轻量级SR网络RepRFN

为了解决感受野太小的问题,作者设计了多并行分支结构,提取和融合不同感受野和模式的特征,使得模型尽可能受益于多分支结构。同时,重参数化操作将训练和推理过程进行了解耦,避免了由于引入多分支结构导致的参数量和计算量增大的问题。

为了解决模型结构冗余的问题,作者重新思考和分析了RFNRFDN之间的结构差异,移除了RFN中用于通道变换的 1 × 1 1\times1 1×1的卷积层,对ESA进行了结构上的改进。

RepRFNRFN有相同的结构,区别在于使用RepRFB替代了图2中的RFNRepBlockRepRFB的主要组成部分,而多分支结构组成了RepBlock,如下图所示。

RepRFB的设计参考的是RFDN中的RFDB,在RFDB中,中间特征图在每个信息蒸馏模块中会被浅层残差块(SRB)划分三次(如图3c所示),因此RepRFB中的首个三层采用的就是一个重参数化的多分支结构,在本文中也称作RepBlock,特征通过执行不同操作的路径进行传递,最后将它们融合在一起,以期提高模型的表达能力。在RepRFB中,由于存在局部残差连接,在RepBlock和卷积层前后的中间特征图尺寸和通道数量通常是不变的,所以不需要通道变换操作,因此RepRFB中的 1 × 1 1\times1 1×1卷积是冗余的,移除该卷积能进一步减少参数量。

4.3 基于傅里叶变换的损失函数

针对提取和复原高频信息的问题,除了引入多分支结构的ECB以外,还引入傅里叶变换到损失函数中,指导模型尽可能学习频域特征和复原高频信息。基于傅里叶变换的损失函数如下:

L f = ∣ ∣ f f t ( I S R ) − f f t ( I H R ) ∣ ∣ 1 L_{f}=||fft(I_{SR})-fft(I_{HR})||_1 Lf=∣∣fft(ISR)fft(IHR)1

对应该损失函数的核心代码如下:

fft_loss = self.l1loss(torch.fft.fft2(X, dim=(-2, -1)),torch.fft.fft2(Y, dim=(-2, -1)))

5. 实验

5.1 实验设置

训练集:DIV2K和Flickr2K。HR图块大小为 192 × 192 192\times192 192×192

数据增强策略:随机水平、垂直翻转和旋转。

优化器:Adam。 β 1 = 0.9 , β 2 = 0.999 \beta_1=0.9, \beta_2=0.999 β1=0.9,β2=0.999

测试集:Set5、Set14、BSD100、Urban100和Manga109。

训练策略:初始学习率设置为 5 × 1 0 − 4 5\times10^{-4} 5×104,每100个epoch学习率减半,一共训练1001个epoch。

5.2 客观结果

PSNR和SSIM是在Y通道上进行计算的。计算参数量和运算量时,假设模型输出的图片是720P。

可视化结果比较。

5.3 消融实验

多尺度特征融合模块

其中RepRFN-P代表没有使用多分支结构(P代表Plain)

模型结构

为了获得低复杂度的模型,作者牺牲了一些性能来换取低复杂度,最后的RepRFN模型使用48个通道数,改进的ESA模块,并移除了用于通道变换的 1 × 1 1\times1 1×1卷积。

损失函数

论文细节问题,表格标题最后面的RGB color soace应该是RGB color space

5.4 NTIRE 2023高效超分挑战赛


6. 结论

在本文中,作者提出了一个重参数化残差特征网络用于轻量级图像超分,设计了多分支结构用来尽可能捕获不同模式的特征,并将这些特征融合。其次,引入了重参数化操作使得复杂的多分支结构也能够用于轻量化网络中。在网络训练过程中,设计了基于傅里叶变换的损失函数能够将空间域变换到频率域来指导模型学习频率信息。实验表明所提的方法相比于其他网络能够在性能和效率间达到更好的均衡。


最后感谢小伙伴们的学习噢~


最后附上2023年高效超分的比赛报告链接,欢迎大家多多阅读分享:NTIRE 2023 Challenge on Efficient Super-Resolution: Methods and Results

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/19324.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

原型链与作用域链

在 JavaScript 中使用构造函数来新建一个对象的,每一个构造函数内部都有一个 prototype 属性,属性值是一个对象,这个对象包含了可以由该构造函数的所有实例共享的属性和方法。当使用构造函数新建一个对象后,在这个对象的内部将包含…

数据库锁的12连问,抗住!

前言 金三银四很快就要来啦,准备了数据库锁的12连问,相信大家看完肯定会有帮助的。 1. 为什么需要加锁 在日常生活中,如果你心情不好想静静,不想被比别人打扰,你就可以把自己关进房间里,并且反锁。这就是生…

如果数据孤岛不打破,企业数字化终难实现

当前市场经济下,企业、品牌、商品的增多,使得市场竞争愈发激烈;用户和市场的需求也在日益发生改变,对企业提出了精细化、以用户为中心的新需求;人口增长减缓、物质生活富裕,让用户更加关注服务属性。这一切…

探索非洲专线物流的新时代_国际物流供应链管理平台_箱讯科技

随着全球化的发展,非洲作为一个充满机遇和挑战的大陆,吸引着越来越多的企业和投资者。然而,由于非洲的地理复杂性和基础设施不完善,物流问题一直是制约非洲发展的瓶颈之一。为了解决这一问题,非洲专线物流应运而生。本…

python 面向对象之继承

文章目录 前言继承的概念单继承多继承子类重写父类的同名方法和属性子类调用父类同名的方法和属性多层继承私有权限 前言 前面我们已经学习了 python 面向对象的类和对象,那么今天我将为大家分享面向对象的三大特性之一:继承。 继承具有以下特性&#…

C#:了解LINQ,简化数据查询和操作的强大工具

文章目录 linq关键字fromwhereselectorderbyjoingroupletinto linq方法筛选方法WhereOfType 排序方法:OrderByOrderByDescendingThenByThenByDescending 投影方法:SelectSelectMany 分组方法:GroupBy 连接方法:JoinGroupJoin 聚合…

Web前端 Day 2

元素显示模式 块元素 独占一行 宽、高、内外边距可以设置 eg. div 行内元素 一行可以存在多个 eg. span 行内块元素 一行可以存在多个 宽、高、内外边距可以设置 是否独占一行 表格标签 <table> <caption></caption> 表格标题&#xff08;概括&#…

Openmediavault配置存储网盘的 用户、组、权限、共享+文档访问功能 (续debian Linux安装配置企业私有网盘)

一、适用环境 1、使用专业服务器的存储容量保存教学资源、企业资源&#xff0c;可供有权限用户共享读取访问。 2、需要对批量的用户进行管理&#xff0c;不同的用户属于不同的组&#xff0c;不同组具备不同的访问权限&#xff0c;如&#xff1a;有些用户只需要读取打开执行&am…

【数据挖掘】时间序列教程【二】

2.4 示例:颗粒物浓度 在本章中,我们将使用美国环境保护署的一些空气污染数据作为运行样本。该数据集由 2 年和 5 年空气动力学直径小于或等于 3.2017 \(mu\)g/m\(^2018\) 的颗粒物组成。 我们将特别关注来自两个特定监视器的数据,一个在加利福尼亚州弗雷斯诺,另一个在密…

C语言学生信息管理系统

C语言版学生信息管理系统 一&#xff0c;开发环境 操作系统&#xff1a;windows10, windows11, linux, mac等。开发工具&#xff1a;Qt, vscode, visual studio等开发语言&#xff1a;c语言 二&#xff0c;功能需求 1. 用户界面: 提供一个简洁的文本界面&#xff0c;用户可…

手把手教你从零开始集成声网音视频功能(iOS版)

说明 1.环信音视频和声网音视频 是两个不同的系统&#xff0c;所以如果要切换的话&#xff0c;需要集成声网的sdk&#xff0c;环信音视频的sdk可以直接废弃 2.文章会介绍如何用声网的音视频跑通demo&#xff0c;可以了解整个音视频通话的流程&#xff0c; 3.文章会介绍已经集…

亚马逊买家号如何绑定信用卡

要在亚马逊上绑定信用卡作为买家号的支付方式&#xff0c;请按照以下步骤进行操作&#xff1a; 1、登录亚马逊账户&#xff1a;使用您的亚马逊账户用户名和密码登录到亚马逊网站。 2、导航至"我的账户"&#xff1a;在页面右上角&#xff0c;将鼠标悬停在"你好…