【读论文】PSFusion

【读论文】Rethinking the necessity of image fusion in high-level vision tasks: A practical infrared and visible image fusion network based on progressive semantic injection and scene fidelity

  • 介绍
  • 解决的问题
  • 网络架构
    • 整体架构
    • 稀疏语义感知分支( sparse semantic perception branch)
    • 场景恢复分支(scene restoration branch )
  • 总结
  • 参考

论文: https://www.sciencedirect.com/science/article/pii/S1566253523001860

如有侵权请联系博主

更多红外与可见光图像融合的论文的具体的解读欢迎大家来到红外与可见光图像融合专栏,关于该领域的问题也欢迎大家私信或则公众号联系我。

介绍

好久没看过论文,今天刚好有空,又找了一篇information fusion的论文,咱们一起看看吧。
在这里插入图片描述
这篇论文和我们之前见到的论文不大一样,至于有啥不一样,咱们来看看吧。

解决的问题

  • 基于特征融合的高级视觉任务存在一些缺陷,例如单个特征提取分支会影响性能,两个独立分支会导致融合性能的下降。
  • 现有的方法往往都基于单个任务设计的,不能很好的推广至其他任务。
  • 证明了融合图像在多模态高级视觉任务的优越性

网络架构

整体架构

在这里插入图片描述
整体的架构如上图所示,给我的感觉就像第一次看到DIVFusion 的架构一样。

现在先不看特征提取部分的内容,先看下场景恢复分支(scene restoration branch )稀疏语义感知分支( sparse semantic perception branch) 这俩哈。

可以看到场景恢复分支最后有两个输出结果,但除了最后一部分不同,两个输出结果对应路径的前半部分是相同的。

其中DSRM的作用就是基于密集连接来实现图像恢复的,最终的就是在于这个SIM(语义注入模块) ,这一部分是干什么的, 我们接下来再说。我们先来看一下稀疏语义感知分支。

稀疏语义感知分支( sparse semantic perception branch)

在这里插入图片描述

现在看一下这个语义感知分支,可以看到的是,这个分支有三个结果了,好家伙!
在这里插入图片描述

我们再看回来哈,这个分支为什么要有三个结果呢?

作者在前面提到,以往的与高级视觉任务相结合的方法存在一个问题 都使用特定的模型来约束最终的结果,从而限制了对其他模型的适用性。 由于我对分割领域不是很了解,这里说一下我自己的观点。

该框架输出的三个输出分别对应三种任务,分别是边缘分割,二进制分割和语义分割,这三类输出公用一个S2PM是不是也就是说S2PM提取的语义信息要同时满足这三类任务,也就可以理解为S2PM提取的语义信息不是为了单个任务设计的,而是包含了多个任务通用语义信息这种通用的信息相比于针对单个具体任务提取的语义信息来说,更适合其他任务。

然后看一下这个网络架构,如果看文章参考的论文来说的话,其实二者存在一定的不一致,参考的网络如下图
在这里插入图片描述

可以看到的是,这篇论文中最深层的特征用于预测语义分割掩码,次深层特征用于提取二进制分割掩码,最后浅层特征用于预测边界分割结果。

如果用这个逻辑理解这个网络结构确实有些困难,但归根结底也都是深层特征预测语义分割和二进制分割。

场景恢复分支(scene restoration branch )

在这里插入图片描述

场景恢复分支放在稀疏语义感知分支之后来讲,是因为场景恢复分支要利用稀疏语义分支提取的语义信息,也就是说稀疏语义分支的S2PM的输出也会注入到SIM中

那么为什么要用稀疏语以分支提取的语义信息呢?

也就是说前面作者所提到的,现有的方法融合的图像并没有包含适合分割的语义特征信息,通过这种方式可以将语义信息注入到最终的融合图像中从而提高分割任务的性能。

这个注入的方式就很有意思了,这里用了一个SIM结构,不知道大家刚开始看的时候是什么感觉,反正我是真没看懂,这是干了啥。
在这里插入图片描述
但幸好在知乎上找到了答案,这里稍稍总结下。

我们可以简单想一下,用于分割的特征和用于图像融合的特征肯定会存在差别,毕竟是两个任务所需要的特征信息。这时候我们如果只是简单的对两类特征进行拼接,肯定会影响后续的处理。就像是,我要做一道菜,本来要的是一个切好的胡萝卜,结果你给我掺了点42号混凝土,这饭还怎么做?
图片由Copilot生成

**那就很清楚了,这个SIM就是用于消除因特征之间差异可能对后续处理产生的不良影响。**至于是怎么消除差异的,这里我就不献丑了,大家可以看看原论文。

图像还原部分就比较简单了,一方面使用下面这个路径来确保两类源图像中的信息得以充分提取。在这里插入图片描述
另一方面就是下面这个路径来生成我们需要的融合图像了
在这里插入图片描述

总结

损失函数这里就不说了,原论文介绍的很清晰,整个文章读下来,最惊艳的就是网络结构,很巧妙的将分割所需要的语义信息注入到融合图像中,同时也为图像融合正名,证明在多模态高级视觉任务中,基于多模态特征的高级视觉任务所能达到的高度,我们使用融合图像也可以达到。

其他融合图像论文解读
》红外与可见光图像融合专栏,快来点我呀《

【读论文】AT-GAN

【读论文】SwinFusion

【读论文】AttentionFGAN

【读论文】DIVFusion: Darkness-free infrared and visible image fusion

【读论文】RFN-Nest: An end-to-end residual fusion network for infrared and visible images

【读论文】DDcGAN

【读论文】Self-supervised feature adaption for infrared and visible image fusion

【读论文】FusionGAN: A generative adversarial network for infrared and visible image fusion

【读论文】DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pairs

【读论文】DenseFuse: A Fusion Approach to Infrared and Visible Images

参考

[1] Rethinking the necessity of image fusion in high-level vision tasks: A practical infrared and visible image fusion network based on progressive semantic injection and scene fidelity

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/293564.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2023 下半年系统架构设计师学习进度

文章目录 复习计划:每周350分钟第一周(339分钟)第二周(265分钟)第三周(171分钟)第四周(214分钟)第五周(274分钟)第六周(191分钟&#…

【计算机系统结构实验】实验3 Cache性能分析

3.1 实验目的 加深对Cache的基本概念及其工作原理的理解; 掌握降低Cache不命中率的各种方法以及这些方法对提高Cache性能的好处; 理解常见替换算法(LRU与随机法)的基本思想以及它们对Cache性能的影响。 3.2 实验平台 实验平台…

Unity自带的NavMesh寻路组件

最近看了一下Unity自带的NavMesh寻路组件,先说一下基本的使用: 首先先把AI Navgation的package包给安装上。 给场景地图添加上NavMeshSurface组件,然后进行烘焙,烘焙出对应的场景地图文件。 给移动物体添加对应的Nav MeshAgent组…

PlatEMO 源码执行的具体过程

ALGORITHM 类 Algorithm类定义在Algorithms文件夹下。在这个目录中,算法根据分类分成了三种: 多目标算法:Multi-objecitve optimization单目标算法:Single-objective optimization工具算法:Utility functions 工具算法…

如何使用 NFTScan NFT API 在 Base 网络上开发 Web3 应用

Base 是 Coinbase 使用 OP Stack 开发的最新以太坊第 2 层(L2)网络,用于解决以太坊等主要区块链面临的可扩展性和成本挑战。Coinbase 将其描述为“安全、低成本、对开发人员友好的以太坊 L2,旨在将下一个 10 亿用户带入 Web3”。B…

Linux---优先级+并发+进程调度队列

目录 一、优先级 二、并发 三、Linux2.6内核进程调度队列 一、优先级 我们发现操作系统中有很多等待队列,也就是说进程需要排队,而排队的本质就是确认优先级,优先级高的排在前面,低的排在后面 为什么要有优先级? 本…

Go 代码检查工具 golangci-lint

一、介绍 golangci-lint 是一个代码检查工具的集合,聚集了多种 Go 代码检查工具,如 golint、go vet 等。 优点: 运行速度快可以集成到 vscode、goland 等开发工具中包含了非常多种代码检查器可以集成到 CI 中这是包含的代码检查器列表&…

泰克TDS3054B示波器 2 或 4 条通道

产品特点 500 MHz 、300 MHz 、100 MHz 三种带宽 取样速率高达 5 GS/s TDS3054B 数字示波器带宽500MHZ TDS3054B TDS3054B 数字示波器带宽500MHZ TDS3054B 2 或 4 条通道 全 VGA 彩色 LCD 显示 25 种自动测量功能 9 位垂直分辨率 TDS3054B 数字示波器带宽500MHZ TDS3054B TDS…

java练习题之多态练习

1:关于多态描述错误的是(D) A. 父类型的引用指向不同的子类对象 B. 用引用调用方法,只能调用引用中声明的方法 C. 如果子类覆盖了父类中方法,则调用子类覆盖后的方法 D. 子类对象类型会随着引用类型的改变而改变 2:class Super{ public void m1(){}…

16 寻找特定高度的地点

搜索二维数组 #include <iostream> using namespace::std; using std::cout; using std::cin; int main() {int n,m,target;cin >> n >> m;int matrix[n][m];for(int i0; i<n; i){for(int j0; j<m; j){cin >> matrix[i][j];}}cin >> tar…

C# WPF上位机开发(QT vs WPF)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 最近经常收到朋友们的私信&#xff0c;他们对C# WPF开发很感兴趣&#xff0c;但是呢&#xff0c;正当准备学习的时候&#xff0c;又有人告诉他们应…

核心订单链路兜底方案之限流熔断降级实战

需求场景 对于很多电商系统而言&#xff0c;在诸如双十一这样的大流量的迅猛冲击下&#xff0c;都曾经或多或少发生过宕机的情况。当一个系统面临持续的大流量时&#xff0c;它其实很难单靠自身调整来恢复状态&#xff0c;你必须等待流量自然下降或者人为地把流量切走才行&…