结合创新!11种多尺度特征融合方法,附论文和代码

随着深度学习和计算机视觉技术的快速发展,多尺度特征融合已经成为一个备受关注的、不断探索的研究方向,它通过捕捉不同尺度和层次上的特征信息,提高对图像和视频内容的理解能力,为图像处理、计算机视觉和深度学习等领域的应用提供了坚实的基础。

今天就整理了11种多尺度特征融合方法分享给大家,这些方法采用了不同的策略和技术,能够有效地改进图像的识别、检测、分类和分割等任务!

1、MSGNet: Learning Multi-Scale Inter-Series Correlations for Multivariate Time Series Forecasting(AAAI2024)

MSGNet:学习多变量时间序列预测的多尺度序列间相关性

简述:本文提出了一种深度学习模型MSGNet,利用频域分析和自适应图卷积来捕捉多个时间尺度上的系列间相关性。MSGNet通过自注意力机制处理系列内依赖,并引入自适应混合跳跃图卷积层学习每个时间尺度的系列间关系。实验证明,MSGNet在多个真实数据集上有效,并能自动学习可解释的多尺度系列间相关性,展现出良好的泛化能力。

图片

2、CEDNet: A Cascade Encoder-Decoder Network for Dense Prediction(ICLR 2024)

CEDNet:用于密集预测的级联编码器-解码器网络

简述:本文提出了一种名为CEDNet的简化级联编码器-解码器网络,它专为密集预测任务设计,并在解码器中执行多尺度特征融合。CEDNet的特点是能够从早期阶段整合高级特征来指导低级特征学习,增强多尺度特征融合。研究人员还研究了Hourglass、UNet和FPN三种编码器-解码器结构,并将它们集成到CEDNet中,提升了性能。在目标检测、实例分割和语义分割的实验中验证了该方法的有效性。

图片

3、Dual Attention U-Net with Feature Infusion:Pushing the Boundaries of Multiclass Defect Segmentation

具有特征注入的双注意力 U-Net:突破多类缺陷分割的界限

简述:本文提出了DAU-FI Net架构,主要针对多类不平衡数据集的语义分割,通过集成多尺度空间通道注意力机制和特征注入提升精度。核心是多尺度深度可分离卷积块和空间通道压缩与激励(scSE)注意力单元,模拟特征图中的通道和空间区域依赖关系。DAU-FI Net利用加法注意力门优化分割,并扩展特征空间。实验表明,该架构在下水道管道和涵洞缺陷数据集及基准数据集上实现了最先进的平均并集交(IoU),比之前方法高出8.9%和12.6%。

图片

4、DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition(TMM2023)

DilateFormer:用于视觉识别的多尺度扩张变压器

简述:本文提出了多尺度扩张注意力(MSDA)模块来模拟局部和稀疏斑块的相互作用,并构建了多尺度膨胀变压器(DilateFormer)。DilateFormer在视觉任务中表现出色,ImageNet-1 K分类任务上与先进模型相当,但FLOP减少了70%。DilateFormer-Base在ImageNet上达到85.6%的前1准确率,在COCO任务上分别达到53.5%的盒式mAP和46.1%的掩码mAP,在ADE20 K语义分割上达到51.1%的MS mIoU。

图片

5、Accurate Leukocyte Detection Based on Deformable-DETR and Multi-Level Feature Fusion for Aiding Diagnosis of Blood Diseases

基于可变形DETR和多级特征融合的精准白细胞检测辅助血液病诊断

简述:本文提出了MFDS-DETR方法,使用多层次特征融合和可变自注意力机制来增强白细胞检测性能。通过在编码器中集成多尺度可变自注意力模块,在解码器中使用自注意力和交叉可变形注意力机制提取白细胞特征图的全球特征。实验证明,该方法在WBCDD、LISC和BCCD数据集上优于其他先进模型,有效性和通用性得到验证。

图片

6、Lightweight multi-level feature difference fusion network for RGB-D-T salient object detection

用于RGB-D-T显著目标检测的轻量级多级特征差异融合网络

简述:本文提出了MFDF网络,用于实时RGB-D-T显著目标检测,这是首个此类网络。由于深度模态信息较少,研究人员采用基于MobileNetV2的非对称三流编码器,为减少冗余参数,还设计了低级特征解码模块和多尺度高级特征融合模块。MFDF在17种最先进方法中表现优异,速度快(320 × 320图像尺寸下124 FPS),参数少(8.9 M),实验证明其有效性。

图片

7、Seeing Beyond the Patch: Scale-Adaptive Semantic Segmentation of High-resolution Remote Sensing Imagery based on Reinforcement Learning(ICCV2023)

超越斑块:基于强化学习的超分辨率遥感图像的尺度自适应语义分割

简述:本文提出了GeoAgent,一个自适应的动态尺度感知框架,用于高分辨率遥感影像的语义分割。GeoAgent利用全局缩略图和位置蒙版为每个图像补丁提供上下文信息,并通过比例控制代理选择适当的尺度。特征索引模块增强了智能体对补丁位置的区分能力,双分支分割网络提取并融合多尺度特征。实验结果表明,GeoAgent在公开数据集和新构建的WUSU数据集上都优于其他分割方法,特别是在大规模测绘应用中。

图片

8、DynStatF: An Effcient Feature Fusion Strategy for LiDAR 3D Object Detection(CVPR2023)

DynStatF:一种用于LiDAR 3D目标检测的高效特征融合策略

简述:本文提出了一种新的特征融合策略DynStaF,通过当前单帧的精确位置信息增强多帧提供的丰富语义信息。DynStaF包含邻域交叉注意力(NCA)和动态-静态交互(DSI)模块,通过双路径架构运行,NCA模块将静态分支要素作为查询,动态分支要素作为键值,解决点云稀疏性,只考虑邻域位置。实验表明,DynStaF在nuScenes数据集上显著提升PointPillars性能至61.6%,与CenterPoint结合使用时,达到61.0%的mAP和67.7%的NDS,为最先进性能。

图片

9、Lite DETR : An Interleaved Multi-Scale Encoder for Efficient DETR(CVPR2023)

Lite DETR:用于高效 DETR 的交错式多标度编码器

简述:本文提出了Lite DETR,一个简单高效的端到端目标检测框架,可将检测头的GFLOP降低60%,同时保持99%原始性能。通过交错更新高级和低级特征,研究人员设计高效编码器模块,为更好融合跨尺度特征,还开发键感知可变形注意力来预测更可靠权重。实验验证了Lite DETR的有效性和效率,且高效编码器策略适用于现有DETR模型。

图片

10、CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition(CVPR2023)

CDDFuse:面向多模态图像融合的相关驱动双分支特征分解

简述:本文提出了CDDFuse网络,这是一个新的多模态特征融合方法。它首先利用Restormer模块提取跨模态的浅层特征,然后通过一个双分支Transformer-CNN结构处理全局和局部特征,结合可逆神经网络(INN)来提取高频信息。CDDFuse使用相关驱动损失来优化特征融合,并结合全局和局部融合层生成最终图像。实验证明,CDDFuse在多种图像融合任务中表现优异,并提升了红外-可见光图像的语义分割和目标检测性能。

图片

11、Centralized Feature Pyramid for Object Detection

用于目标检测的集中式特征金字塔

简述:本文提出了一种新的目标检测网络,称为集中式特征金字塔(CFP),它通过全局显式监管来优化特征。CFP使用轻量级MLP捕获全局依赖,并通过可学习的视觉中心机制关注图像的角落区域。这种方法通过从深层次特征中提取的信息来调节浅层次特征,实现了更全面和具有区分性的特征表示。在MS-COCO数据集上的实验表明,CFP能够提升YOLOv5和YOLOX目标检测基线的性能。

图片

码字不易,欢迎大家点赞评论收藏!

关注下方《享享学AI》

回复【多尺度特征融合】获取完整论文

👇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/444640.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【基础算法练习】并查集模板

文章目录 算法思想代码模板题目描述:代码并查集模板模板题二(求并查集内集合的数量) 算法思想 并查集的核心操作: 将两个集合合并询问两个元素是否在一个集合中 基本原理:每个集合我们将他维护成一颗树,…

【安装指南】nodejs下载、安装与配置详细教程

目录 🌼一、概述 🍀二、下载node.js 🌷三、安装node.js 🍁四、配置node.js 🌼一、概述 Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行时,用于构建可扩展的网络应用程序。Node.js 使用事件驱动、…

新年新成员!OAK-T红外热成像仪预告!

编辑:OAK中国 首发:oakchina.cn 喜欢的话,请多多👍⭐️✍ 内容可能会不定期更新,官网内容都是最新的,请查看首发地址链接。 ▌前言 Hello,大家好,这里是OAK中国,我是Ash…

交通运输部铁路关基保护办法今起施行|附“空铁公水“关保图解

交通运输行业关乎国计民生,加快关基安全建设至关重要。关键信息基础设施是经济社会运行的神经中枢,是国家重要的战略资源,关系国家安全、国计民生和公共利益,具有基础性、支撑性、全局性作用,与此同时全球网络攻击范围…

AI论文指南|ChatGPT在论文讨论部分能起到什么作用?

点击下方▼▼▼▼链接直达AIPaperPass ! AIPaperPass - AI论文写作指导平台 公众号原文▼▼▼▼: AI论文指南|ChatGPT在论文讨论部分能起到什么作用? 讨论部分是一篇论文的精华所在,也是写作中最难的部分。讨论部分主要是将文章…

2024.2.1每日一题

LeetCode 今天看到一个评论挺有意思的,非常符合我现在的状况 简单题 – 稍加思索,嘴角上扬 中等题 – 认真对待,眉头一皱 困难题 – 绞尽脑汁,Ctrl cv 数字游戏 LCP 24. 数字游戏 - 力扣(LeetCode) 题目…

上岸秘籍来啦!TOGAF认证考试全攻略

上岸秘籍来啦!手把手教你如何顺利通过TOGAF认证考试! 🌟考试内容 TOGAF 9.2认证分为两个级别: ✅ TOGAF基础级:掌握标准术语、结构和基本概念,理解企业架构和核心标准。 ✅ TOGAF鉴定级:深入分析…

springboot139华强北商城二手手机管理系统

简介 【毕设源码推荐 javaweb 项目】基于springbootvue 的 适用于计算机类毕业设计,课程设计参考与学习用途。仅供学习参考, 不得用于商业或者非法用途,否则,一切后果请用户自负。 看运行截图看 第五章 第四章 获取资料方式 **项…

springboot+AOP+RBAC自定义权限访问控制03

springbootAOPRBAC自定义权限访问控制03!今天我们做完了整个权限管理的内容。 内容比较多。请大家有足够的耐心看完。 首先。我们为了测试权限的鉴别效果,我们提前准备了一个新闻实体类,对应数据库的tb_news数据表。 我们提前准备好了新闻…

【AI绘画】Stable Diffusion扩散模型 + Consistency一致性模型 小白必看!!!!!

手把手教你入门绘图超强的AI绘画,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新保姆级教程资料包 (文末可获取) 1 GAN到Stable Diffusion的改朝换代2 从DDPM到Stable Diffusion发展史 2.1 DDPM 扩散过…

GNSS技术助力航海业迈向新时代:海洋测绘与航行的创新应用

全球导航卫星系统(GNSS)技术在海洋测绘与航行领域的广泛应用,正推动航海业迎来新一轮的科技变革。MinewSemi的GNSS模块为船舶导航、海洋资源勘探和航行安全提供了更为精确和高效的解决方案。本文将深入研究GNSS技术在海洋测绘与航行中的创新应…

代码随想录刷题第21天

第一题是二叉搜索树的最小绝对差,初始思路是中序遍历将二叉搜索树转换为有序数组,在有序数组中进行遍历。一遍过了。(手机打代码真的麻烦)看卡哥讲解会了双指针法遍历。 第二题是二叉搜索树中的众数,还是只想到了中序…