(2024,SaFaRI,双三上采样和 DFT,空间特征和频率特征)基于扩散模型的图像空间和频率感知恢复方法

Spatial-and-Frequency-aware Restoration method for Images based on Diffusion Models

公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)

目录

0. 摘要

3. 方法

3.1 修改数据保真度

3.2 理论分析

3.3 SaFaRI

4. 实验


0. 摘要

扩散模型最近成为图像恢复 (Image Restoration,IR) 的有希望的框架,这归功于其产生高质量重建的能力和与已建立方法的兼容性。现有方法解决 IR 中的噪声逆问题,考虑了逐像素的数据保真度。在本文中,我们提出了 SaFaRI,一种用于 IR 的面向 Gaussian 噪声的空间和频率感知扩散模型(Spatial-and-Frequency-aware Restoration method for Images。我们的模型鼓励图像在空间和频率域中保持数据保真度,从而实现增强的重建质量。我们在各种噪声逆问题上全面评估了我们模型的性能,包括修复、去噪和超分辨率。我们的彻底评估表明,SaFaRI 在 ImageNet 数据集和 FFHQ 数据集上都取得了最先进的性能,在 LPIPS 和 FID 指标方面超越了现有的零样本 IR 方法。

3. 方法

现有逆问题的方法 Chung 等人 [2023],Zhu等人 [2023],Wang等人 [2022],Kawar等人 [2022a],Chung等人 [2022b] 通过最小化基于像素的数据保真度项 ||y − Ax||^2_2 引导生成过程,该过程未考虑图像的感知特征。在本文中,我们提出了一个修改后的数据保真度项,通过上采样和傅里叶变换分别结合空间和频率特征。

3.1 修改数据保真度

为了增强数据保真度项,我们用项 ∥ψ(y) − ψ(Ax_0)∥ 替换了项 ∥y − Ax_0∥,利用了变换 ψ,该变换有效捕捉图像的感知特征。

为了通过这种技术实现令人满意的结果,建议仔细控制可行解的扰动,以实现最小的干扰。幸运的是,在 ψ 是单射的条件下,以下方程的有效性是被充分证实的。

因此,在假设 ψ 具有单射性的前提下,合理地期望方程(7)的可行解将受到较少的干扰。

方程(7)的第一项是数据保真度项,它量化了测量值与生成图像的失真版本之间的像素级差异。而第二项是正则化项。随后,我们引入一个具有单射性的转换 ψ,它有效地提取感知特征。

空间特征。我们提出利用通过插值获得的上采样图像的效果,以不仅包含像素级信息,还包括图像的空间上下文。图像插值使用卷积操作计算新生成像素的值。这些值是通过与相邻像素的复杂交互确定的,有效地捕捉图像的空间上下文。

本质上,新生成像素的值可以解释为包含从周围空间图像块中获得的关键信息。通过这样做,我们旨在丰富图像的整体表示,从而提高各种图像处理任务的性能。在本文中,我们使用标准的插值方法,双三次插值(bicubic interpolation)。我们用 ψ_(s,r) 表示带有比例 r 的双三次上采样。请注意,双三次上采样 ψ_s 是单射的。

频率特征。为了增强测量与人类感知的对齐性,我们将通过 DFT 获得的图像的频域表示纳入其中。利用离散傅里叶变换(DFT)在提取频率信息方面的优势,DFT 使数据保真度项分解为其低频和高频部分,提供了数据更详细的表示。 

记 F 和 F^(−1) 分别为 2D 离散傅里叶变换(DFT)及其逆变换。对于图像 f ∈ R^(M×N×C),离散傅里叶变换 F 通过具有复系数的正交基分解 f 如下:

对于(u,v)∈ R^M × R^N。我们的分析基于 DFT 的逐通道应用,为了简洁起见,以下不考虑通道维度。

我们采用理想高通滤波和理想低通滤波,分别用 H 和 L 表示,如下所示:

现在我们考虑变换

Parseval 定理暗示了 ψ_f 保持2-范数。换句话说,用 d 表示差异 y−Ax0,

成立。因此,ψ_f 将 ∥d∥^2_2分解为高频项 ∥ψH(d)∥^2_2 和低频项 ∥ψL(d)∥^2_2:

请注意,算子 ψ_f 是保范(norm-preserving)算子,因此 ψ_f 是单射的。同时,最小化∥ψH(d)∥^2_2 和 ∥ψL(d)∥^2_2 分别意味着最小化高频特征和低频特征的差异。

因此,通过对分解的保真度项进行自适应加权,我们可以选择性地增强在视觉感知中起关键作用的高频分量。

3.2 理论分析

3.3 SaFaRI

借助前述概念的协同作用,我们提出 SaFaRI:一种面向空间和频率的图像恢复方法(Spatial-and-Frequency-aware Restoration method for Images),这是一种新的方法,将数据保真度项调整到空间和频率域,从而更全面地表示图像的底层感知属性。

为了考虑空间和频率特征,我们考虑对应于

的数据保真度。由于 ψs 和 ψf 都是单射的,ψ 也是单射的。由于其单射性质,ψ 预计对方程(7)的可行解造成最小的干扰。在这种情况下,它表示如下: 

为了增强算法的稳定性,在实际应用中,我们固定 τ 并将 ψs 设置为同分布,用于前 T − τ 次迭代,其中 T 是总迭代次数。此外,为了优化其性能,我们仔细调整了三个数据保真度项的权重:空间感知项 ρ^s_t、高频项 ρ^H_t 和低频项 ρ^L_t。 SaFaRI 的详细算法制定在 Algorithm 1 中呈现。运算符和超参数的选择在附录中。有关 SaFaRI 的视觉表示,请参考图 2。

4. 实验

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/448167.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HBuilder使用[微信小程序开发者工具] 显示 × initialize报错

解决办法 我们先要单独打开 微信开发者工具 点击设置里面的安全,把服务器端口打开 然后再回到我们的HBuilder使用重新打开打开 成功打开

统计图表在线配置服务-百度 SugarBI的学习笔记

最近,有个产品要支持统计图表在线可配置,这样,当用户有新增统计指标的需求时,运维人员通过界面化配置,就可以增加统计指标了,不用开发写代码,画页面了。 上网查了下相关的组件,感觉…

滑动窗口最终弹

力扣30.串联所有单词的子串&#xff08;巨困难&#xff09; 这个最难的是什么 1.代码的编写 2.容器的使用 class Solution {List<Integer>retnew LinkedList<>();//保存字典中所有单词的频次public List<Integer> findSubstring(String s, String[] words) …

基于ecal的foxglove studio可视化工具的使用

ecal通讯在自动驾驶和机器人中的应用越来越多,在调试测试过程中,可以使用ecal monitor,ecal recoder和ecal player等工具,对ecal 消息进行监测录制回播。但是,有时候需要对消息进行可视化查看,比如雷达点云信息,相机图像等,可以使用foxglove studio可视化工具。 Foxg…

【开源】SpringBoot框架开发农村物流配送系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 系统登录、注册界面2.2 系统功能2.2.1 快递信息管理&#xff1a;2.2.2 位置信息管理&#xff1a;2.2.3 配送人员分配&#xff1a;2.2.4 路线规划&#xff1a;2.2.5 个人中心&#xff1a;2.2.6 退换快递处理&#xff1a;…

机器学习_12_梯度下降法、拉格朗日、KKT

文章目录 1 梯度下降法1.1 导数、梯度1.2 梯度下降法1.3 梯度下降法的优化思想1.4 梯度下降法的调优策略1.5 BGD、SGD、MBGD1.5.1 BGD、SGD、MBGD的区别 2 有约束的最优化问题3 拉格朗日乘子法3.1 拉格朗日乘子法理解3.2 对偶问题 4 KKT条件4.1 KKT条件理解4.2 KKT公式理解4.3 …

【甲方安全建设】DevOps初体验

文章目录 前言传统的开发方式&#xff1a;Docker-解决环境问题 DevOps-CI/CD走向流水线Jenkins工作流程Git拉取代码Maven构建打包通过SSH连接后端服务器 实现效果 DevSecOps-安全赋能关于安全平台漏洞扫描漏洞预警TODO 前言 临近春节&#xff0c;笔者经过半年北漂&#xff0c;…

Flutter 应用服务:主题、暗黑、国际化、本地化 - app_service库

Flutter应用服务 主题、暗黑、国际化、本地化 app_service库 作者&#xff1a;李俊才 &#xff08;jcLee95&#xff09;&#xff1a;https://blog.csdn.net/qq_28550263 邮箱 &#xff1a;291148484163.com 本文地址&#xff1a;https://blog.csdn.net/qq_28550263/article/det…

TensorFlow2实战-系列教程6:猫狗识别3------迁移学习

&#x1f9e1;&#x1f49b;&#x1f49a;TensorFlow2实战-系列教程 总目录 有任何问题欢迎在下面留言 本篇文章的代码运行界面均在Jupyter Notebook中进行 本篇文章配套的代码资源已经上传 猫狗识别1 数据增强 猫狗识别2------数据增强 猫狗识别3------迁移学习 1、迁移学习 …

【linux】校招中的“熟悉linux操作系统”一般是指达到什么程度?

这样&#xff0c;你先在网上找一套完整openssh升级方案&#xff08;不是yum或apt的&#xff0c;要源码安装的&#xff09;&#xff0c;然后在虚拟机上反复安装测试&#xff0c;直到把他理解了、背下来。 面试的时候让你简单说说linux命令什么的&#xff0c;你就直接把这个方案…

uniapp中echart实例

1&#xff0c;自定义仪表盘 797_1706772047 index.vue import { useGaugeStore } from "/stores/utils"; const { currentValueEndAngle, currentSplitNumber } storeToRefs(useGaugeStore() ); const gaugeStore useGaugeStore();const wenduGauge ref<chart…

抖音老阳叭叭叭分享的temu蓝海项目优势有哪些?

在市场竞争日益激烈的今天&#xff0c;寻找一个具有发展潜力的蓝海项目已成为众多创业者的共同目标。近日&#xff0c;老阳分享了一个名为Temu的蓝海项目&#xff0c;引发了广泛关注。那么&#xff0c;这个项目究竟有何优势&#xff0c;能让人们对它青睐有加呢?以下几个方面将…