视觉Mamba的多向扫描策略真的有效吗?

news/2024/11/18 3:21:41/文章来源:https://www.cnblogs.com/wxkang/p/18199650
前言 本文对主流的扫描方向及其组合对遥感图像语义分割的影响进行了全面的实验研究。通过在LoveDA、ISPRS Potsdam和ISPRS Vaihingen数据集上广泛的实验,我们证明了无论其复杂性或扫描方向的数量,没有一个扫描策略能够显著优于其他策略。所以对于高分辨率遥感图像的语义分割,简单的单一扫描方向已经足够。

本文转载自CVer

仅用于学术分享,若侵权请联系删除

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV方向的准研究生们,未来三年如何度过?

招聘高光谱图像、语义分割、diffusion等方向论文指导老师

论文标题:Rethinking Scanning Strategies with Vision Mamba in Semantic Segmentation of Remote Sensing Imagery: An Experimental Study

原文链接:

单位:西交利物浦大学、CSIRO(澳大利亚科学与工业研究院)

01 背景介绍

图1. Vision Mamba中常用的12种扫描方向。图像根据预设置的大小裁剪成patches,然后根据特定的扫描方向将这些patches建模为序列。

Mamba是一个基于状态空间模型(SSM)的网络,最初应用于大型语言模型。Mamba 作为一个类似于循环神经网络的序列网络,能够归纳先前信息并预测后续状态。通过引入选择性机制来选择性地关注或忽略输入,它有效地压缩了长期上下文信息。在应用于视觉任务时,该网络能够兼顾全局感受野和线性复杂度,这表明它在遥感图像分割中具有很大潜力。

借鉴了ViT将Transformer架构引入视觉任务的成功经验,大量研究成功地将Mamba集成到图像处理任务中。类似于ViT将图像裁剪成patch并展开以输入Transformer模型的方式,Mamba将图像patch作为序列进行处理。然而,与ViT不同的是,ViT能够在这些图像patch之间计算多头自注意力,而Mamba则顺序的处理图像patch。因此,有许多可用的图像patch的扫描方向。

大量研究探索了新的扫描方向及其组合,试图增强Mamba对图像理解的性能。图1展示了12种常用的扫描方向(D1 - D12)。D1 - D4 是以“Z”字形模式顺序扫描图像patch的每一行或每一列。D5 - D8 是对图像patch进行对角线方向的顺序扫描。D9 - D12 则进行“S”字形蛇形扫描。然而,现有研究尚未全面比较其有效性。因此,亟需一项比较研究,定量评估各种扫描方向及其组合对Mamba在典型遥感任务(语义分割)性能的影响。

02 相关工作

图2. (a) 平铺扫描策略,与Samba一致;(b) 平铺后进行正向和反向扫描,然后合并,与Vim一致;(c) 依次进行四个方向的扫描,然后合并,与VMamba一致;(d) 四个方向的蛇形扫描,与PlainMamba一致。

由于Mamba是一个序列网络,无法直接处理二维图像数据,因此探索将图像序列化的方法是有意义的。Vim进行了首次尝试,其方法与ViT相似,将图像裁剪成patch并展开。它对图像patch进行正向(D1)和反向(D2)扫描,然后合并,如图2(b)所示。类似地,VMamba在ViM的基础上增加了两个垂直扫描方向(D3,D4),如图2(c)所示。PlainMamba采用了蛇形扫描方法(D8,D9,D10,D11),如图3(d)所示。这些尝试都是基于一个假设,即不同的图像patch扫描方向可能会增强Mamba对图像的理解。然而,目前仍缺乏在不同扫描方向下对模型性能进行全面和定量的比较。

随着Vision Mamba的不断发展,许多研究评估了其在语义分割任务中的表现,特别是在医学和遥感领域。U-Mamba是首次将Mamba与UNet架构结合,用于医学图像语义分割的尝试。随后,基于Vim的双向扫描和VMamba的四向扫描的工作相继出现。在遥感领域,Samba是第一个将Mamba引入遥感图像语义分割的研究,其中图像patch按照与ViT相同的方式展开,如图2(a)所示。之后,RS3Mamba使用VMamba的四向扫描方法构建了辅助编码器,用于语义分割。类似地,RSMamba在VMamba的四向扫描基础上,在其编码器-解码器架构中增加了四个额外的对角线方向(即D5、D6、D7和D8)。

03 实验

图3. 实验框架的总体架构。

为了全面评估扫描策略对Mamba在高分辨率图像语义分割任务中表现的影响,我们设计了一个特定的语义分割框架,使用编码器-解码器架构以便于对扫描策略进行定量比较。整体框架如图3左侧所示。在编码器部分,图像被裁剪成patch,然后依次输入四个Vision Mamba Scan (VMS)模块进行渐进式降采样。为了确保实验的公平性,我们一致使用UperNet作为解码器来生成分割结果。VMS模块是一个带有跳跃连接的残差网络。残差网络由两个分支组成。一个分支使用深度卷积(DW Conv)层来提取特征,对各个方向的扫描进行S6计算,然后进行合并。另一个分支则由线性映射和激活层组成。虽与Mamba相似,该架构在图像扫描形式上存在一个关键区别,称为8方向扫描(8D Scan)模块,如图3右侧所示。由于我们实验中考虑的扫描方向数量从1(即单向)到8(即8个单独扫描方向的组合),我们在8D Scan模块中设计了8个潜在的扫描方向:Dn1、Dn2、Dn3、……、Dn8。

图4. 扫描策略的实验设置

图4展示了我们实验中测试的22种扫描策略,包含了主流的扫描策略的方法。实验设置详见原文。

04 结果

表1. 不同扫描策略在Vaihingen数据集的分割表现。

表2. 不同扫描策略在Potsdam数据集的分割表现。

表3. 不同的扫描策略在LoveDA数据集的分割表现。

表1、2和3分别展示了使用图4中详细描述的22种扫描策略在ISPRS Vaihingen、ISPRS Potsdam和LoveDA数据集上的语义分割表现。我们在三个数据集中观察到一个有趣的现象:由22种扫描策略得到的分割准确率都是相似的。考虑到每个数据集中不同扫描策略之间的微小性能差异,以及单个扫描策略在三个数据集中的性能变化,没有明显的迹象表明特定的扫描策略在复杂性或涉及单个或多个扫描方向上优于其他策略。观察到的任何轻微性能波动可能都归因于训练过程中的随机性。基于结果的详细讨论以及未来工作详见论文。

05 结论

本研究在ISPRS Vaihingen、ISPRS Potsdam和LoveDA数据集上,定量研究了22种扫描策略对基于Mamba方法的高分辨率遥感图像语义分割的影响。实验结果表明,无论是单向扫描方向还是其组合,各种扫描策略并未在分割准确率上带来明显提升。因此,对于遥感图像,简单的平铺方法在基于Mamba的方法中已足够。然而,多方向扫描方法在常规图像中的有效性仍需验证。我们的研究还发现,减小步长可以提高Mamba在语义分割中的表现,但代价是增加计算资源的消耗。因此,开发更高效的计算方法以支持更密集的扫描是有价值的。

参考文献:

[1] Zhu, Q., Fang, Y., Cai, Y., Chen, C., & Fan, L. (2024). Rethinking scanning strategies with vision Mamba in semantic segmentation of remote sensing imagery: An experimental study. 

 

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

分享一个CV知识库,上千篇文章、专栏,CV所有资料都在这了

明年毕业,还不知道怎么做毕设的请抓紧机会了

LSKA注意力 | 重新思考和设计大卷积核注意力,性能优于ConvNeXt、SWin、RepLKNet以及VAN

CVPR 2023 | TinyMIM:微软亚洲研究院用知识蒸馏改进小型ViT

ICCV2023|涨点神器!目标检测蒸馏学习新方法,浙大、海康威视等提出

ICCV 2023 Oral | 突破性图像融合与分割研究:全时多模态基准与多交互特征学习

听我说,Transformer它就是个支持向量机

HDRUNet | 深圳先进院董超团队提出带降噪与反量化功能的单帧HDR重建算法

南科大提出ORCTrack | 解决DeepSORT等跟踪方法的遮挡问题,即插即用真的很香

1800亿参数,世界顶级开源大模型Falcon官宣!碾压LLaMA 2,性能直逼GPT-4

SAM-Med2D:打破自然图像与医学图像的领域鸿沟,医疗版 SAM 开源了!

GhostSR|针对图像超分的特征冗余,华为诺亚&北大联合提出GhostSR

Meta推出像素级动作追踪模型,简易版在线可玩 | GitHub 1.4K星

CSUNet | 完美缝合Transformer和CNN,性能达到UNet家族的巅峰!​

AI最全资料汇总 | 基础入门、技术前沿、工业应用、部署框架、实战教程学习

计算机视觉入门1v3辅导班

计算机视觉交流群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/708352.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【论文笔记-55~】多语言实体对齐

2012~2018 Multilingual Knowledge Graph Embeddings for Cross-lingual Knowledge Alignment 文章核心观点: 这篇文章介绍了一种名为MTransE的多语言知识图谱嵌入模型,旨在实现跨语言知识对齐。该模型由知识模型和匹配模型两部分组成,其中知识模型采用TransE对每个语言的实…

博客美化

目录参考链接页面定制css代码页首HTML代码页脚HTML代码其他设置头部背景图设置 参考链接awescnb自己部署皮肤文件页面定制css代码 #loading{bottom:0;left:0;position:fixed;right:0;top:0;z-index:9999;background-color:#f4f5f5;pointer-events:none;}.loader-inner{will-cha…

MySQL面试必备三之事务

本文首发于公众号:Hunter后端 原文链接:MySQL面试必备三之事务这一篇笔记介绍一下 MySQL 的事务,面试中常被问到关于事务的几个问题如下:事务是什么 为什么需要事务,事务有什么作用 事务的特点 事务可能带来哪些问题 事务有哪些隔离级别,这些隔离级别都可以解决哪些问题 …

Atcoder 题目选做(二)

Atcoder 题目选做(二)(20/20)推荐阅读:#1、#3、#4、#5、#6、#17\(\text{By DaiRuiChen007}\)*1. [ARC145F] Modulo Sum of Increasing Sequences Problem Link给定 \(n,m,p\),对于所有 \(r\in[0,p)\) 求有多少长度为 \(n\),值域 \([0,m]\) 的单调不降序列数组在 \(\bmod…

VUE速通(10)Vue3核心语法(2)setup

1 setup 概述 setup是Vue3中一个新的配置项,值是一个函数,它是 Composition API “表演的舞台”,组件中所用到的:数据、方法、计算属性、监视......等等,均配置在setup中。 特点如下:setup函数返回的对象中的内容,可直接在模板中使用。setup中访问this是undefined。setu…

免费提供运维项目,丰富简历和经历

致力于帮助运维初学者完成 从0到1、从1到10 的蜕变

Harbor数据迁移

Harbor安装参考 https://www.cnblogs.com/minseo/p/8905736.html Harbor数据需要从一台主机迁移至另外一台主机原主机备份数据 备份数据文件夹,该数据文件夹配置在配置文件harbor.yml把数据文件移动到目标主机 目标主机安装Harbor 安装参考上面链接 修改配置文件安装# ./insta…

pycharm终端下载包时出现usage: conda-script.py [-h] [-v] [--no-plugins] [-V] COMMAND ...报错

pycharm终端下载conda-forge时出现了  usage: conda-script.py [-h] [-v] [--no-plugins] [-V] COMMAND ...  的报错 如图: 通过  conda init  重置环境就可用了

免费运维项目

免费提供运维项目,丰富简历和经历 拒绝过家家,每个项目都是真刀真枪的干,就是新手入职前三个月的那种感觉。 资源规划:计算、存储、网络、目录、端口、冗余、高可用等,输出资源清单和拓扑图。 CI/CD:代码仓库、持续集成系统、以及相关中间件的部署。 监控:硬件监控、网络…

求行列式的两个方法:凑乘积,利用特征值