CVPR2024 进一步提升超分重建质量,中科大提出用于图像超分的语义感知判别器SeD,即将开源

本文首发: AIWalker,欢迎关注~

https://arxiv.org/abs/2402.19387
https://github.com/lbc12345/SeD

本文概述

生成对抗网络(GAN)已被广泛用于恢复图像超分辨率(SR)任务中的生动纹理。判别器使 SR 网络能够以对抗性训练的方式学习现实世界高质量图像的分布。然而,这种分布学习过于粗粒度,容易受到虚拟纹理的影响,导致生成结果违反直觉。

为了解决这个问题,我们提出了一个名为 SeD 的简单而有效的语义感知判别器,它鼓励 SR 网络通过引入图像语义作为条件来学习更细粒度的分布。具体来说,我们的目标是从训练有素的语义提取器中挖掘图像的语义。在不同的语义下,鉴别器能够自适应地单独区分真假图像,从而引导 SR 网络学习更细粒度的语义感知纹理。为了获得准确和丰富的语义,我们充分利用最近流行的具有广泛数据集的预训练视觉模型(PVM),然后通过精心设计的空间交叉注意模块将其语义特征合并到鉴别器中。通过这种方式,我们提出的语义感知鉴别器使 SR 网络能够生成更加逼真和令人愉悦的图像。对两个典型任务(即 SR 和RealSR)的大量实验证明了我们提出的方法的有效性。

本文贡献

  • 我们指出了细粒度语义感知纹理生成对于 SR 的重要性,并通过将预训练视觉模型 (PVM) 的语义合并到判别器中,首次提出了用于 SR 任务的语义感知判别器 (SeD) 。
  • 为了更好地结合鉴别器的语义指导,我们提出了SeD的语义感知融合块(SeFB),它提取像素级语义并通过交叉注意方式将语义感知图像特征扭曲到鉴别器中。
  • 对两种典型 SR 任务(即经典图像 SR 和真实世界图像 SR)的大量实验揭示了我们提出的 SeD 的有效性。此外,我们的 SeD 可以以即插即用的方式轻松集成到基于 GAN 的 SR 方法的许多基准中。

本文方案

所提提出的语义感知鉴别器(SeD)的整体框架如图2所示。给定低分辨率图像 I l I_l Il,我们可以首先获得超分辨率图像 I s I_s Is。然后使用判别器𝐷来区分 I s I_s Is和高分辨率图像 I h I_ℎ Ih,强制 SR 网络生成类似真实的图像
。然而,普通判别器仅考虑图像的粗粒度分布,而忽略图像的语义。这将导致 SR 网络产生虚假甚至更糟糕的纹理。

一个有前途的纹理生成应该满足其语义信息。因此,我们的目标是实现语义感知鉴别器,它利用高分辨率图像 I h I_h Ih的语义作为条件。在这里,我们将大视觉模型作为语义提取器,表示为 ϕ \phi ϕ。我们的目标是实现更细粒度的语义感知纹理生成,其目标是
P ( I s ∣ ϕ ( I h ) ) = P ( I h ∣ ϕ ( I h ) ) P(I_s | \phi(I_h)) = P(I_h | \phi(I_h)) P(Isϕ(Ih))=P(Ihϕ(Ih))

因此,如图2所示,高分辨率图像 I h I_ℎ Ih将送入到固定的预训练语义提取器中提取语义 ϕ ( I h ) \phi(I_ℎ) ϕ(Ih),然后SeFB模块对超分图像特征与高分辨率图像特征变换并送入到判别器中。基于语义感知特征,鉴别器可以实现语义感知分布测量。

Semantic Excavation

我们采用预训练的 CLIP“RN50”模型作为语义提取器。具体来说,“RN50”由四层组成,随着层数的增加,特征的分辨率被下采样,语义变得更加抽象。为了研究哪一层更适合我们的语义挖掘,我们系统地对这四层进行实验,并通过实验发现第三层的语义特征是最优的

Semantic-aware Fusion Block

SeFB的架构如图2©所示,我们的目标是将语义感知纹理从图像扭曲到鉴别器,从而强制鉴别器聚焦关于语义感知纹理的分布。因此,在图 2© 中,语义 S h S_ℎ Sh 被传递到自注意力模块,然后作为查询馈送到交叉注意力模块.

Extension to Various Discriminators

在本文中,我们将提出的 SeD 合并到两个流行的判别器中,包括 patch-wise 判别器和 Pixel-wise 判别器。如图 2(d)所示,分片语义感知鉴别器由三个 SeFB 和两个卷积层组成。对于逐像素鉴别器,我们遵循中的方法并利用 U-Net 架构作为主干。我们在浅层特征提取阶段用我们提出的 SeFB 替换原始卷积层。

本文实验

推荐阅读

  • 超越SwinIR,Mamba入局图像复原,达成新SOTA
  • 入局CV,Mamba再显神威!华科王兴刚团队首次将Mamba引入ViT,更高精度、更快速度、更低显存!
  • Swin版VMamba来了!精度再度提升,VMamba-S达成83.5%,超越Swin-S,已开源!
  • MiOIR | 直面 “多合一”图像复原,港理工张磊团队提出MiOIR,融顺序学习与提示学习于一体!
  • NAFNet :无需非线性激活,真“反直觉”!但复原性能也是真强!
  • 真实用!ETH团以合成数据+Swin-Conv构建新型实用盲图像降噪
  • ELAN | 比SwinIR快4倍,图像超分中更高效Transformer应用探索

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/506195.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

regexpire-攻防世界-MISC

用nc链接靶机: rootkali:~/Desktop# nc 220.249.52.133 37944 Can you match these regexes? Bv*(clementine|sloth)*Q*eO(clinton|alien)*(cat|elephant)(cat|trump)[a-zA-Z]*(dolphin|clementine)\W*(table|apple)* 大致上是服务端给出一个正则表达式&#xff0c…

智慧城市中的公共服务创新:让城市生活更便捷

目录 一、引言 二、智慧城市公共服务创新的实践 1、智慧交通系统 2、智慧医疗服务 3、智慧教育系统 4、智慧能源管理 三、智慧城市公共服务创新的挑战 四、智慧城市公共服务创新的前景 五、结论 一、引言 随着信息技术的迅猛发展,智慧城市已成为现代城市发…

Sora惊艳出世,AI能否给人类带来新的“视界”?

2月16日,OpenAI公司公布了其首个文生视频大模型Sora,同时展示了多个由Sora生成的最长时间达一分钟的视频,引起科技圈震动。 钢铁侠马斯克对其发出“人类愿赌服输”的感叹,360董事长周鸿祎也作出“Sora意味着AGI实现将从10年缩短到…

ZYNQ--MIG核配置

文章目录 MIG核配置界面多通道AXI读写DDR3MIG核配置界面 Clock Period: DDR3 芯片运行时钟周期,这个参数的范围和 FPGA 的芯片类型以及具体类型的速度等级有关。本实验选择 1250ps,对应 800M,这是本次实验所采用芯片可选的最大频率。注意这个时钟是 MIG IP 核产生,并输出给…

【算法】顺时针打印矩阵(图文详解,代码详细注释

目录 题目 代码如下: 题目 输入一个矩阵,按照从外向里以顺时针的顺序依次打印出每一个数字。例如:如果输入如下矩阵: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 则打印出数字:1 2 3 4 8 12 16 15 14 13 9 5 6 7 11 10 这一道题乍一看,没有包含任何复杂的数据结构和…

【茶话数据结构】查找最短路径——Dijkstra算法详解(保姆式详细图解,步步紧逼,保你学会)

💯 博客内容:【茶话数据结构】查找最短路径——Dijkstra算法详解 😀 作  者:陈大大陈 🦉所属专栏:数据结构笔记 🚀 个人简介:一个正在努力学技术的准前端,专注基础和实…

SpringBoot约定大于配置

什么是约定大于配置 "约定大于配置"(Convention Over Configuration)是一种理念,旨在通过默认约定和规则来减少开发人员需要做的配置工作。在Spring Boot框架中,这一原则得到了充分应用,帮助开发者更快地构…

(PWM呼吸灯)合泰开发板HT66F2390-----点灯大师

前言 上一篇文章相信大家已经成为了点灯高手了,那么进阶就是成为点灯大师 实现PWM呼吸灯 接下来就是直接的代码讲解了,不再讲PWM原理的 这里部分内容参考了另一个博主的文章 合泰杯——合泰单片机工程7之PWM输出 如果有小伙伴不理解引脚设置和delay函数…

GO-接口

1. 接口 在Go语言中接口(interface)是一种类型,一种抽象的类型。 interface是一组method的集合,接口做的事情就像是定义一个协议(规则),只要一台机器有洗衣服和甩干的功能,我就称它…

【python】爬取链家二手房数据做数据分析【附源码】

一、前言、 在数据分析和挖掘领域中,网络爬虫是一种常见的工具,用于从网页上收集数据。本文将介绍如何使用 Python 编写简单的网络爬虫程序,从链家网上海二手房页面获取房屋信息,并将数据保存到 Excel 文件中。 二、效果图&#…

Java项目layui分页中文乱码

【问题描述】这部分没改之前中文乱码。 【解决办法】在layui.js或者layui.all.js文件中替换共、页、条转换成Unicode码格式。 字符Unicode共&#x5171页&#x9875条&#x6761【完美解决】改完之后重新运行项目,浏览器F12缓存清除就好了,右键

06 OpenCV增加图像的对比度

文章目录 理论API代码 理论 图像变换可以看作如下&#xff1a; 像素变换 – 点操作邻域操作 – 区域 调整图像亮度和对比度属于像素变换-点操作 API saturate_cast(value)确保值大小范围为0~255之间Mat.at(y,x)[index]value 给每个像素点每个通道赋值 代码 #include <…