CAVER: Cross-Modal View-Mixed Transformer for Bi-Modal Salient Object Detection

目录

一、论文阅读笔记:

1、摘要:

2、主要贡献点:

3、方法:

3.1 网络的总体框架图:

3.2 Transformer-based Information Propagation Path (TIPP)

3.3 Intra-Modal/Cross-Scale Self-Attention (IMSA/CSSA)

Q1: MHSA计算复杂度较高

A1:Patch-wise Token Re-Embedding (PTRE)

Q2:目前的MHSA只考虑空间视图上的特征对齐,而忽略了通道视图的潜在值

A2:View-Mixed Attention (VMA)

 3.4 Inter-Modal Cross-Attention (IMCA)

4、实验:

二、代码复现

1、实验细节:

2、数据集:

3、实验步骤:

3.1 将对应的代码和数据集上传到服务器上

3.2 将根目录下的datasets.py里的路径更改成自己的路径

3.3 更改对应的./configs/rgbd-2dataset.py中的路径信息

3.4 将预训练模型从给出的网址上下载下来,上传到对应文件夹 (/root/autodl-tmp/CAVER/pretrained)

3.5 安装对应的module

3.6 在两个数据集上的训练结果

三、BUGS

问题1:assert path.endswith(".jpg") or path.endswith(".png") or path,endswith(".bmp") AssertionError

问题2: TypeError: FormatCode() got an key word 'verify'

​编辑

​编辑 问题3:RuntimeError: CuDA error: no kernel imade is available for execution on the deviceCUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrectFor debugging consider passing CUDA LAUNCH BLOCKING=1.

四、提问



发表期刊及年份:TIP 2023

代码网址:https://github.com/lartpang/CAVER

一、论文阅读笔记:

1、摘要:

        大多数现有的双模态(RGB-D 和 RGB-T)显着对象检测方法利用卷积操作并构建复杂的交织融合结构来实现跨模态信息集成。卷积操作的固有局部连通性将基于卷积的方法的性能限制在天花板上。在这项工作中,我们从全局信息对齐和转换的角度重新思考这些任务。具体来说,所提出的跨模态视图混合转换器 (CAVER) 级联了几个跨模态集成单元来构建自上而下的基于转换器的信息传播路径。CAVER 将多尺度和多模态特征集成视为建立在新颖的视图混合注意力机制之上的序列到序列上下文传播和更新过程。此外,考虑到输入令牌数量的二次复杂度w.r.t,我们设计了一种无参数补丁令牌重新嵌入策略来简化操作。RGB-D 和 RGB-T SOD 数据集的广泛实验结果表明,当配备所提出的组件时,这种简单的双流编码器-解码器框架可以超越最近最先进的方法。代码和预训练模型将在链接处可用。

2、主要贡献点:

  1. 我们引入了transformer从序列到序列的角度重新思考双模态SOD建模,从而获得更好的可解释性。
  2. 我们构建了一个自顶向下的基于transformer的信息传播路径,通过视图混合注意块增强,可以对齐RGB和深度/热模态的特征,充分利用空间和通道视图之间的模态间和模态内信息。
  3. 我们通过使用patch-wise令牌重新嵌入来提高注意中的矩阵操作,提高了transformer对多尺度特征和高分辨率特征的效率。在卷积前馈网络的帮助下,可以进一步增强特征的局部性,并且可以充分感知和探索全局和局部上下文中的关键线索。
  4. 大量的实验表明,该模型在7个RGB-D SOD数据集和3个RGB-T SOD数据集上的性能优于最近的方法。

3、方法:

3.1 网络的总体框架图:

   

3.2 Transformer-based Information Propagation Path (TIPP)

        基于transformer的信息传播路径主要是四个CMUI模块之间自上而下地信息交互和传播,前三个CMUI模块(即CMUI1、CMUI2、CMUI3)都是有三个输入(RGB流、depth/thermal流,来自下一个CMUI的输出 {f_{rgb-d/t}^{i+1}}),但是最后一个CMUI4模块只有两个输入(即RGB流、depth/thermal流)

3.3 Intra-Modal/Cross-Scale Self-Attention (IMSA/CSSA)

        IMSA和CSSA两者的结构式相同的,但相较于自注意机制而言两者在FFN(前馈神经网络)和MHSA(多头注意力机制)两部分做出了改进。如下图所示:

其中如上两部分改进的原因:

Q1: MHSA计算复杂度较高

MHSA单头的计算公式:

        Qh、Kh、Vh 分别是单个头部的查询、键和值。Wq , Wk, Wv 是对应的投影矩阵。Z = [Y1,., Yh ]W^{^{o}}W^{^{o}}是一个输出投影层。

        注意矩阵Q_{h}K_{h}^{T}的点积运算具有输入序列长度的二次复杂度w.r.t,即N^2,这限制了它处理多尺度高分辨率特征。

A1:Patch-wise Token Re-Embedding (PTRE)

        与MHSA相比,PTRE被应用于将矩阵运算从像素形式提高到逐块形式,从而将复杂度降低了p^2倍。这里,p^2是Patch-wise中的元素数量。具体做法就是将1D序列折叠成2D的形式,部分和总体图如下面两图:

Q2:目前的MHSA只考虑空间视图上的特征对齐,而忽略了通道视图的潜在值
A2:View-Mixed Attention (VMA)

        具体做法如下,值得注意的是,计算空间和通道的Z值时,计算方式不一样。

\Rightarrow 

 3.4 Inter-Modal Cross-Attention (IMCA)

        交叉注意机制和自注意机制两者之间的区别就是,自注意机制的Q、K、V是同源的,即来自同一个X,而交叉注意机制的Q、K、V是不同源的,如在IMCA中Q来自rgb流,但是K和V来自d/t流。

        d/t流与上述公式类似

4、实验:

二、代码复现

1、实验细节:

        在AutoDL平台上租的服务器,服务器型号为:RTX A4000(16GB),同时使用的相关配置为:PyTorch  1.11.0 Python  3.8(ubuntu20.04) Cuda  11.3

2、数据集:

        并未采用论文里的数据集,而是采用rsdds_1500数据集和rsdds_113数据集

3、实验步骤:
3.1 将对应的代码和数据集上传到服务器上
3.2 将根目录下的datasets.py里的路径更改成自己的路径

        由于datasets.py中有多个数据集的定义,我只更改了第一个数据集的内容,具体是(更改的地方标红)

_RGBD_SOD_ROOT = "/root/autodl-tmp/CAVER/rsdds"
_RGBT_SOD_ROOT = "<rgbtsod root>"

# RGB-D SOD
rsdds= dict(
    image=dict(path=f"{_RGBD_SOD_ROOT}/TrainDataset/RGB", suffix=".bmp"),
    depth=dict(path=f"{_RGBD_SOD_ROOT}/TrainDataset/depth", suffix=".tiff"),
    mask=dict(path=f"{_RGBD_SOD_ROOT}/TrainDataset/GT", suffix=".png"),
)

3.3 更改对应的./configs/rgbd-2dataset.py中的路径信息

由于使用的是ResNet101d训练模型,所以需要更改对应的./configs/rgbd-2dataset.py中的路径信息。

具体做法如下(由于数据集中图片较少,只进行了训练,没有测试,所以两者都是rsdds_113):

data = dict(
    train=dict(
        name=[
            "rsdds_113",
        ],
        shape=dict(h=256, w=256),
    ),
    test=dict(
        name=[
            "rsdds_113"
        ],
        shape=dict(h=256, w=256),
    ),

3.4 将预训练模型从给出的网址上下载下来,上传到对应文件夹 (/root/autodl-tmp/CAVER/pretrained)

预训练模型网址:

Pre-trained parameters: Release All pretrained parameters. · lartpang/CAVER · GitHub

3.5 安装对应的module
3.6 在两个数据集上的训练结果

rsdds_113

 rsdds_1500

三、BUGS

问题1:assert path.endswith(".jpg") or path.endswith(".png") or path,endswith(".bmp") AssertionError

解决办法:原来对应的datasets.py中的后缀suffix没有更改,原来对应的是如上图,但是我数据集里的三个文件夹中对应的图片格式与之不同,更改成对应的后缀即可 ,如下图:

_RGBD_SOD_ROOT = "/root/autodl-tmp/CAVER/rsdds"
_RGBT_SOD_ROOT = "<rgbtsod root>"

# RGB-D SOD
rsdds= dict(
    image=dict(path=f"{_RGBD_SOD_ROOT}/TrainDataset/RGB", suffix=".bmp"),
    depth=dict(path=f"{_RGBD_SOD_ROOT}/TrainDataset/depth", suffix=".tiff"),
    mask=dict(path=f"{_RGBD_SOD_ROOT}/TrainDataset/GT", suffix=".png"),
)

问题2: TypeError: FormatCode() got an key word 'verify'

解决办法:我对应文件夹里的预训练模型上传出现问题,对应的.pth文件大小为0Bytes,重新上传即可

问题3:RuntimeError: CuDA error: no kernel imade is available for execution on the deviceCUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrectFor debugging consider passing CUDA LAUNCH BLOCKING=1.

解决办法:由于为了直接快速安装各种包,我直接使用 pip install -r requirements.txt 安装各种包,但是由于txt文件里有torch和torchvision的版本,与无使用的版本不同,导致我原先的版本被卸载,重新安装了对应的版本,但是由于安装是从阿里云镜像里安装的cpu版本,导致出现这个问题。所以直接换一个服务器,然后再将requirements.txt中对应的torch和torchvision的版本要求删掉,或者一步一步根据错误提示安装对应的包即可。

四、提问

问题1:SOD(显著性目标检测)和图像分割之间的区别

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/323776.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【python】使用fitz包读取PDF文件报错“ModuleNotFoundError: No module named ‘frontend‘”

【python】使用fitz包读取PDF文件报错“ModuleNotFoundError: No module named ‘frontend’” 正确解决过程 在读取PDF文件时&#xff0c;我使用了fitz包&#xff0c;当使用代码import fitz导入该包时&#xff0c;出现了报错&#xff1a; 于是我直接使用以下代码安装fronten…

假设法做线段树

合并lazy-tag&#xff1a;指的是把一些能合并的合并了&#xff0c;如果有多种 lazy-tag 的话&#xff0c;每一层最多只存在一个tag。 下面&#xff0c;这是一道区间乘与区间加的混合。 P3373 【模板】线段树 2 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn)https://www.luogu…

虾皮之家(Shopee)的数据分析插件:优化销售策略的利器

在如今竞争激烈的电商市场中&#xff0c;卖家们需要不断优化自己的销售策略&#xff0c;以吸引更多的用户并提升销售业绩。虾皮之家&#xff08;Shopee&#xff09;作为一家知名的电商平台&#xff0c;为卖家提供了一系列的数据分析插件&#xff0c;帮助卖家更深入地分析店铺数…

Java项目:111SpringBoot在线论坛

博主主页&#xff1a;Java旅途 简介&#xff1a;分享计算机知识、学习路线、系统源码及教程 文末获取源码 一、项目介绍 在线论坛是由SpringBootMybatis开发的&#xff0c;论坛提供用户注册&#xff0c;整体分为管理员和普通用户两种角色。管理员端可以生产邀请码&#xff0c;…

IntelliJ IDEA远程查看修改Ubuntu上AOSP源码

IntelliJ IDEA远程查看修改Ubuntu上的源码 本人操作环境windows10,软件版本IntelliJ IDEA 2023.2.3&#xff0c;虚拟机Ubuntu 22.04.3 LTS 1、Ubuntu系统安装openssh 查看是否安装&#xff1a; ssh -V 如果未安装&#xff1a; sudo apt install openssh-server # 开机自启…

太牛了!微信批量自动加好友你还不知道吗?

你还在一个一个地输入号码或微信号&#xff0c;再手动进行搜索添加好友吗&#xff1f;这样不仅费时费力&#xff0c;还可能会出现错误或是漏加的情况。 今天给大家分享一个支持多个微信号自动批量添加好友的宝藏工具&#xff0c;解放你的双手&#xff0c;帮你节省大量的时间和…

静态网页设计——宠物狗狗网(HTML+CSS+JavaScript)

前言 声明&#xff1a;该文章只是做技术分享&#xff0c;若侵权请联系我删除。&#xff01;&#xff01; 感谢大佬的视频&#xff1a; https://www.bilibili.com/video/BV1nk4y1X74M/?vd_source5f425e0074a7f92921f53ab87712357b 使用技术&#xff1a;HTMLCSSJS&#xff08;…

微信小程序使用mqtt开发可以,真机不行

以下可以解决我的问题&#xff0c;请一步一步跟着做&#xff0c;有可能版本不一样就失败了 一、下载mqtt.js 前往蓝奏云 https://wwue.lanzouo.com/iQPdc1k50hpe 下载好后将.txt改为.js 然后放入项目里 二、连接mqtt const mqtt require(../../utils/mqtt.min); let cli…

后端开发——JDBC的学习(三)

本篇继续对JDBC进行总结&#xff1a; ①通过Service层与Dao层实现转账的练习&#xff1b; ②重点&#xff1a;由于每次使用连接就手动创建连接&#xff0c;用完后就销毁&#xff0c;这样会导致资源浪费&#xff0c;因此引入连接池&#xff0c;练习连接池的使用&#xff1b; …

又一券商被点名,网络安全问题不容忽视

12月25日&#xff0c;黑龙江证监局发布公告表示&#xff0c;江海证券存在关于IT治理、网络安全管理的内部决策、执行机制不健全&#xff1b;公司App个人信息保护合规性检测不充分&#xff0c;App强制、频繁、过度索取权限等问题。因此&#xff0c;黑龙江证监局决定对江海证券采…

理解二叉树的遍历(算法村第七关白银挑战)

二叉树的前序遍历 144. 二叉树的前序遍历 - 力扣&#xff08;LeetCode&#xff09; 给你二叉树的根节点 root &#xff0c;返回它节点值的 前序 遍历。 示例 1&#xff1a; 输入&#xff1a;root [1,null,2,3] 输出&#xff1a;[1,2,3]解 LeetCode以及面试中提供的方法可能…

windows安装kafka以及kafka管理工具推荐

windows安装 1.下载地址 下载地址 下载最新版本的.tgz文件解压 2.修改配置 修改config目录下的zookeeper.properties中的dataDir属性 server.properties文件中的log.dir属性 3.启动zookeeper 进入到bin\windows\下的用cmd输入zookeeper-server-start.bat ..\..\config\zo…