Transformer网络学习记录——基于空间约束自注意力和Transformer的RGB-D显著性检测方法研究

基于图半监督学习和图卷积的目标分割与跟踪算法研究 (wanfangdata.com.cn)

只能说看不懂,记录是为了有耐心慢消化

原文:

网络整体为通用的编码器-解码器架构 ,总体上由骨干编码器、交互编码器、RGB 解码器、深度解码器组成。

具体来说,采用 ResNet50 作为骨干网络。给定一对 RGB 模态和 Depth 模态的输 入图像,分别得到不同尺度的特征。为了减少参数和提高网络的性能,采用 1×1 卷积对降维到 64。分别将这些特征表示为𝑋 𝑟 {𝑋 𝑟 | 2 3 4 5}和𝑋 {𝑋 | 2 3 4 5}。 将 RGB 图像特征和 Depth 图像特征𝑋5 𝑟、𝑋5 作为输入,并利用 PSMA 模块得到更加结构化的特征表示𝑍5 𝑟、𝑍5 。对于特征𝑍5 𝑟、𝑋 𝑟 {𝑋 𝑟 | 2 3 4}和𝑍5 、𝑋 {𝑋 | 2 3 4},分 别用 RGB 解码器和深度解码器将高层特征上采样到与浅层特征相同的尺度,再通过元素相加来融合不同层级的特征(如图 (a)、(c)所示)。

在得到两个分支的输出特征之后,为了更好地挖掘不同模态的共同特征,用交互编码器来促进两个模态之间的信息交换。与文献[49]相似,交互编码器将 RGB 解码器和深度解码器的拼接特征作为输入,它通过叠加多个卷积来提取多层次特征。再分别使用不同的卷积得到适用于 RGB 解码器和深度解码器的交互信息,去自适应地指导 RGB 解 码器和深度解码器(如图 3.3(b)所示)。最后将融合交互特征和主干编码器的特征直接 相加,以充分利用不同模态的特征。在本章提出的框架中,特征交互是由多次迭代组成 的。在第一次迭代中,RGB 解码器和深度解码器两个分支在不交换信息的情况下输出融 合特征。从第二次迭代开始,将前一次迭代后的拼接特征作为交互编码器的输入,从而 实现两个分支之间的交互。

理解:

1、骨干网络(ResNet50)图中粉色部分

详细介绍:ResNet50网络结构图及结构详解 - 知乎 (zhihu.com)

最开始有一个单独的卷积层stage 0,后4个Stage都由Bottleneck组成,分别是3, 4, 6, 3个小Bottleneck。下面摘取了stage 0的解释:

  • (3,224,224)指输入INPUT的通道数(channel)、高(height)和宽(width),即(C,H,W)。现假设输入的高度和宽度相等,所以用(C,W,W)表示。
  • 该stage中第1层包括3个先后操作
  1. CONV
    CONV是卷积(Convolution)的缩写,7×7指卷积核大小,64指卷积核的数量(即该卷积层输出的通道数),/2指卷积核的步长为2。
  2. BN
    BN是Batch Normalization的缩写,即常说的BN层。
  3. RELU
    RELU指ReLU激活函数。
  • 该stage中第2层为MAXPOOL,即最大池化层,其kernel大小为3×3、步长为2
  • (64,56,56)是该stage输出的通道数(channel)、高(height)和宽(width),其中64等于该stage第1层卷积层中卷积核的数量,56等于224/2/2(步长为2会使输入尺寸减半)。

总体来讲,在Stage 0中,形状为(3,224,224)的输入先后经过卷积层、BN层、ReLU激活函数、MaxPooling层得到了形状为(64,56,56)的输出。

2、金字塔结构的空间约束自相互注意力模块 (Pyramid Spatial Constrained Self-Mutual Attention, PSMA)

用于学习多模态图像的空间上下文和多模态感知特征表示

RGB 模态 和 Depth 模态的特征𝑋 𝑟 ∈ ℝ𝐻×𝑊×𝐶和𝑋d ∈ 𝐻×𝑊×C在通道维度上拼接,然后使用卷积和𝑠𝑜𝑓𝑡𝑚𝑎x激活函数来计算选择注意。

没看懂 等等再理解

3、交互编码器

给定一个形状为H×W的输入图像,该主干将生成五个尺度的特征,由于下采样,尺寸减半。我们将这些特征表示为F={Fi|i=1,2,3,4,5}。第i个特征的大小为,其中Ci是第i个特性的通道。已经表明,低级特征大大增加了计算成本,但带来的性能改进有限。因此,我们只利用{Fi|i=2,3,4,5}的特征,如图2所示。将两个卷积层应用于这些特征,以使它们分别适应身体预测任务和细节预测任务。然后,我们得到两组特征B={Bi|i=2,3,4,5}和D={Di|i=2、3,4、5},它们都被压缩到64个通道,并被发送到解码器网络以生成显著性图。

在获得这两个分支的输出特征之后,处理它们的最简单方法是连接这些特征并应用卷积层以获得最终的显著性图。然而,这种方式忽略了分支之间的关系。为了显式地促进分支之间的信息交换,引入了交互编码器网络。更具体地,交互解码器将主体解码器和细节解码器的级联特征作为输入。它堆叠多个卷积以提取多层次特征。然后,这些多级特征将应用于3x3卷积层,以使它们分别适用于身体解码器和细节解码器。直接相加用于将交互特征与骨干编码器的特征融合,以产生更精确的显著性图。从表面上看,整个网络是不寻常的,因为后者的分支输出用于前者的解码器。但事实上,特征交互包括多次迭代。在第一次迭代中,两个分支输出特征而不交换信息。从第二次迭代开始,分支之间交互。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/17975.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

操作系统接口 MIT 6.828 - 1. Lab 01: Xv6 and Unix utilities

本文会将lab1中的思路以及知识点进行分析,并作为作者学习MIT 6.828的一个学习总结,希望能够帮助到学习该lab的同学们 中文版书籍:中文版书籍 实验教案地址:教案地址 操作系统接口 在操作系统中,为了能够有效地与操作系…

【SCI征稿】计算机算法、通信、人工智能、网络、物联网、机器学习等领域,13本期刊影响因子上涨,这几本期刊录用快

2023年JCR发布后,计算机领域SCI期刊有13本影响因子上涨,审稿周期短,进展顺利: 1️⃣IF:6.0-7.0↑,JCR2区,中科院3区,SCI&EI 双检,CCF-C类 征稿领域:概率…

邮箱推荐和(警告)使用qq邮箱的坏处

qq如果发布违规消息,比如群聊无意发布会导致你账号封号,而且随着次数增多,会导致永久封号,你的qq音乐,qq浏览器,qq游戏,{qq邮箱},全部会无法登录,比如需要登陆邮箱验证码…

【Java】面向对象基础 之 静态字段和静态方法

1、静态字段 在一个class中定义的字段,我们称之为实例字段。实例字段的特点是,每个实例都有独立的字段,各个实例的同名字段互不影响。 还有一种字段,是用static修饰的字段,称为静态字段:static field。 …

网络编程【TCP单向通信、TCP双向通信、一对多应用、一对多聊天服务器】(二)-全面详解(学习总结---从入门到深化)

目录 Java网络编程中的常用类 TCP通信的实现和项目案例 TCP通信入门案例 TCP单向通信 TCP双向通信 创建点对点的聊天应用 一对多应用 一对多聊天服务器 Java网络编程中的常用类 Java为了跨平台,在网络应用通信时是不允许直接调用操作系统接 口的&#xff0…

【ARIMA-SSA-LSTM】合差分自回归移动平均方法-麻雀优化-长短期记忆神经网络研究(Python代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

允许Traceroute探测漏洞和ICMP timestamp请求响应漏洞解决方法(三)

目录 服务器检测出了漏洞需要修改 1.允许Traceroute探测漏洞解决方法 2、ICMP timestamp请求响应漏洞 服务器检测出了漏洞需要修改 1.允许Traceroute探测漏洞解决方法 详细描述 本插件使用Traceroute探测来获取扫描器与远程主机之间的路由信息。攻击者也可以利用这些信息来…

word自动编号变黑块的亲测解决方案

具体问题如下: 出现这种情况就是word的自动编号字体出错,可以在word中运行脚本来解决: Sub repair()For Each templ In ActiveDocument.ListTemplates For Each lev In templ.ListLevels lev.Font.Reset Next lev Next templEnd Sub代码如上…

信息安全-应用安全-软件成分安全分析(SCA)能力的建设与演进

1. 前言 SCA 概念出现其实很久了。简单来说,就是针对现有的软件系统生成粒度非常细的 SBOM(Software Bill of Materials 软件物料单)清单,然后通过⻛险数据去匹配有没有存在⻛险组件被引用。目前,市面上比较出色的商业…

Spring Cloud的基本应用

上篇文章我们的eureka的集群已经搭建完毕,但是我们还没有开始使用,之前我们的page访问的方法是直接写死的,现在我们就可以改为集群的方式来写 Autowired//注册中心对应的客户端对象private DiscoveryClient discoveryClient;RequestMapping("query/{id}")public Prod…

[MMDetection]测试模型

以下是基于MMdetection3.10版本 1、简单测试模型 测试模型一般使用tools中的test.py,一般使用方式 python tools/test.py config文件路径 权重文件路径 可以通过--show 来以gui展示检测结果 python tools/test.py config文件路径 权重文件路径 --show 可以通过--s…

Jstat命令解析

Jstat命令解析 Jstat是JDK自带的一个轻量级小工具。全称“Java Virtual Machine statistics monitoring tool”,它位于java的bin目录下,主要利用JVM内建的指令对Java应用程序的资源和性能进行实时的命令行的监控,包括了对Heap size和垃圾回收…