多模态融合16篇优质论文及代码合集,含2023最新

多模态融合是多模态学习领域的基础问题,也是多模态研究中非常关键的研究点。它旨在从多个模态(例如语音、图像、文本等)中提取有价值的信息和特征,并将这些信息融合在一起以提高系统的性能。这一领域的研究内容广泛,包括但不限于多模态算法的开发和优化、多模态数据的处理和分析、以及多模态产品的规划和设计。

目前有关多模态融合的研究工作已有了许多值得一看的成果,我简单整理了一下,今天就和大家分享16篇相关论文。项目源码以及论文原文需要的同学看文末

1、External multi-modal imaging sensor calibration for sensor fusion: A review

传感器融合的外部多模态成像传感器标定:综述

概览:本文综述了多模态成像传感器标定的研究现状,包括传统基于运动的标定和基于特征的标定。其中,目标基标定和无目标标定是两种常见的基于特征的标定方法。此外,系统标定是一个新兴研究方向。最后,本文总结了评估标定方法的关键因素,并讨论了其应用。未来的研究应该关注在线无目标标定和系统多模态传感器标定的能力。

2、Provable Dynamic Fusion for Low-Quality Multimodal Data

低质量多模态数据的可证明动态融合

概览:本文研究了多模态融合中的固有挑战,提出了动态多模态融合作为学习范式。通过理论分析,揭示了不确定性估计解决方案可以实现鲁棒的多模态融合。作者还提出了一种名为“质量感知多模态融合”的新型框架,可以提高分类准确性和模型鲁棒性。

3、SkipcrossNets: Adaptive Skip-cross Fusion for Road Detection

用于道路检测的自适应跳过交叉融合

概览:本文提出了一种新型融合架构SkipcrossNets,用于自适应地将LiDAR点云和相机图像进行融合,以进行自动驾驶任务。该网络通过前向方式连接每一层,并使用所有先前层的特征图作为输入,并将其自身的特征图作为输入传递给后续层的另一种模态,从而增强特征传播和多模态特征融合。该网络还被分成几个块,以减少特征融合的复杂性和模型参数的数量。

4、FusionFormer: A Multi-sensory Fusion in Bird's-Eye-View and Temporal Consistent Transformer for 3D Object Detection

面向三维目标检测的多传感器融合与时间一致性Transformer

概览:本文提出了一种名为FusionFormer的新型端到端多模态融合框架,用于3D物体检测任务。该框架通过在融合编码模块中引入可变形注意力和残差结构来解决现有方法需要将特征转换为鸟瞰图空间并可能丢失Z轴上的某些信息的问题。具体而言,该方法通过开发统一的采样策略,可以自然地从2D图像和3D体素特征中进行采样,从而利用灵活的适应性,并在特征拼接过程中避免显式转换到鸟瞰图空间。

5、Artifacts Mapping: Multi-Modal Semantic Mapping for Object Detection and 3D Localization

多模态语义映射用于物体检测和3D定位

概览:本文提出了一种基于多模态传感器融合的框架,用于在已知环境中自主检测和定位预定义对象。该框架结合了RGB-D相机和激光雷达的RGB和深度数据,并能够准确地检测到真实样本环境中98%的对象。与单传感器实验相比,传感器融合允许机器人准确地检测近和远距离障碍物。

6、DBCNet:Dynamic Bilateral Cross-Fusion Network for RGB-T Urban Scene Understanding in Intelligent Vehicles

用于智能车辆RGB-T城市场景理解的动态双边交叉融合网络

概览:本文提出了一种名为DBCNet的动态双边交叉融合网络,用于智能车辆中RGB-T城市场景的理解。作者利用了RGB-T图像中的多模态信息,通过引入DBCNet来进行RGB-T城市场景理解。实验表明,DBCNet能够有效地聚合多层次的深层特征,并优于最先进的深度学习场景理解方法。

7、Multi-Modal Mutual Attention and Iterative Interaction for Referring Image Segmentation

多模态相互关注和迭代交互用于参考图像分割

概览:本文提出了一种名为多模态相互关注和多模态相互解码器的方法来解决参考图像分割问题。该方法通过更好地融合语言和视觉信息来提高模型对多模态信息的理解能力,并引入了迭代多模态交互和语言特征重建来允许连续和深入的交互以及防止丢失或扭曲语言信息。实验表明,该方法显著改善了基线并始终优于最先进的参考图像分割方法。

8、Transfusion:Multi-modal Fusion Network for Semantic Segmentation

用于语义分割的多模态融合网络

概览:本文提出了一种名为TransFusion的新模型,用于语义分割,该模型直接将图像与点云融合,无需对点云进行有损预处理。相比于使用带有深度图的图像的基本层FCN模型,TransFusion在Vaihingen和Potsdam数据集上将mIoU提高了4%和2%。

9、DeepFusion:Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection

用于多模态3D对象检测的激光雷达-相机深度融合

概览:本文提出了一种通用多模态3D检测模型,用于自动驾驶中激光雷达和相机的深度融合。作者认为融合深层激光雷达特征和相机特征可以获得更好的性能。为了解决两种模态的特征对齐问题,作者提出了InverseAug和LearnableAlign两种新技巧。基于这些技巧,作者开发了一组名为DeepFusion的通用多模态3D检测模型,该模型比以前的方法更准确。

10、Multi-exposure image fusion via deep perceptual enhancement

通过深度感知增强的多曝光图像融合

概览:本文提出了一种名为DPE-MEF的深度感知增强网络,用于多曝光图像融合。通过整合不同曝光的多个镜头来解决这个问题,本质上是一个增强问题。在融合过程中,应同时关注两个感知因素,包括信息量和视觉真实性。所提出的DPE-MEF包含两个模块,其中一个模块负责从输入中收集内容细节,另一个模块则负责最终结果的颜色映射/校正。实验表明,该网络在数量和质量上优于其他最先进的替代方案,并且在提高单个图像曝光质量方面具有灵活性。

11、Rethinking multi-exposure image fusion with extreme and diverse exposure levels: A robust framework based on Fourier transform and contrastive learning

一种基于傅里叶变换和对比学习的鲁棒框架

概览:本文提出了一种基于傅里叶变换和对比学习的鲁棒多曝光图像融合框架,可以处理具有极端和多样化曝光水平的图像。作者开发了一种基于傅里叶变换的像素强度转移策略来合成具有不同曝光水平的图像,并训练了一个编码器-解码器网络来重建原始自然图像。同时,作者还提出了一种对比正则化损失来进一步增强网络恢复正常曝光水平的能力。在三个基准数据集上进行广泛比较后,该方法在主观视觉效果和客观评价指标上都优于其他方法。

12、Bridging the View Disparity Between Radar and Camera Features for Multi-modal Fusion 3D ObjectDetection

基于multi-moda的雷达和相机特征之间的视差桥接

概览:本文提出了一种在鸟瞰图下实现雷达和相机特征融合的新方法,以用于3D目标检测。该方法使用多尺度图像2D特征和空间-时间编码器提取的雷达特征,通过视图变换将图像特征转换为BEV,并使用点融合和ROI融合模型进行多模态特征融合。实验结果表明,该方法在nuScenes数据集上实现了最先进的性能。

13、Multi-modal contrastive mutual learning and pseudo-label re-learning for semi-supervised medical image segmentation

半监督医学图像分割的多模态对比互学习与伪标签再学习

概览:本文提出了一种半监督对比互学习分割框架Semi-CML,该框架利用跨模态信息和不同模态之间的预测一致性进行对比互学习。虽然Semi-CML可以同时提高两种模态的分割性能,但两种模态之间存在性能差距,即存在一种模态的分割性能通常优于另一种模态的情况。因此,作者进一步开发了一种软伪标签再学习(PReL)方案来弥补这种差距。

14、Homogeneous Multi-modal Feature Fusion and Interaction 3D Object Detection

同质多模态特征融合和交互的三维物体检测

概览:本文提出了一种同质多模态特征融合和交互的三维物体检测方法(HMFI),用于自动驾驶中的多模态3D目标检测。该方法通过设计图像体素提升模块、查询融合机制和体素特征交互模块等技术,实现了点云和图像之间的跨模态特征融合和交互,避免了信息损失,提高了性能。

15、Multi-modal policy fusion for end-to-end autonomous driving

用于端到端自动驾驶的多模态策略融合

概览:本文探讨了如何将来自互补传感器的表示进行集成以实现自动驾驶。作者提出了一种名为TransFuser的新型多模态融合Transformer,使用注意力机制来集成图像和LiDAR表示。通过实验验证,该方法在复杂的场景中实现了最先进的驾驶性能,与基于几何的融合相比,碰撞减少了76%。

16、TransMEF:A Transformer-Based Multi-Exposure Image Fusion Framework using Self-Supervised Multi-Task Learning

基于Transformer的多曝光图像融合框架

概览:本文提出了一种基于Transformer的多曝光图像融合框架TransMEF,该框架使用自监督多任务学习。该框架通过三个自监督重建任务来学习多曝光图像的特征并提取更通用的特征。同时,为了弥补CNN架构在建立长期依赖关系方面的缺陷,设计了一个结合了CNN模块和Transformer模块的编码器。在多曝光图像融合基准数据集上,该方法在主观和客观评估中都取得了最佳性能。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“多模态融合”领取论文原文及源码

码字不易,欢迎大家点赞评论收藏!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/223336.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Java并发】聊聊不安全的HashMap以及ConcurrentHashMap

在实际的开发中,hashmap是比较常用的数据结构,如果所开发的系统并发量不高,那么没有问题,但是一旦系统的并发量增加一倍,那么就可能出现不可控的系统问题,所以在平时的开发中,我们除了需要考虑正…

室内定位(WiFi/UWB/蓝牙等)技术方案概述

室内无法搜索到卫星,这样常规的GPS/北斗定位都无法使用,常规免费的只有运营商的基站定位LBS,但这个精度实在太差,一般都有几十米到几百米的偏差。因此,室内定位一直是个老大难问题。 截至目前,业界比较成熟…

【JMeter】运行方式

第一种: 使用GUI 操作: 在JMeter界面菜单导航上点击运行按钮 一般用作创建TestPlan和调试脚本增加java堆空间来满足测试环境 第二种:使用CLI(Command Line) 性能测试一般请求量比较大,为了节省资源 CLI参数用法: 字段…

使用char.js 柱形方式显示 一年12个月的最高气温与最低气温

<!DOCTYPE html> <html> <head><title>气温图表</title><script src"https://cdn.jsdelivr.net/npm/chart.js"></script><style>#myChart{width:800px;height: 400px;}</style> </head> <body>&l…

C语言:一个数如果恰好等于除它本身外的因子之和,这个数就称为完数。例如6=1+2+3。编程找出1000以内的所有完数。

分析&#xff1a; 在主函数 main 中&#xff0c;程序首先定义三个整型变量 m、s 和 i&#xff0c;并用于计算和判断完数。然后使用 printf 函数输出提示信息。 接下来&#xff0c;程序使用 for 循环结构&#xff0c;从 2 到 999 遍历所有的数。对于每个遍历到的数 m&#xff0c…

【Linux学习】基础IO

目录 八.系统文件IO 8.1 前言 8.2 C语言文件IO C语言常用的基本函数 C语言默认打开的的三个流 8.3 系统文件IO open接口 close接口 write接口 read接口 8.4 C语言文件IO与系统文件IO的关系 八.系统文件IO 8.1 前言 系统文件 I/O&#xff08;输入/输出&#xff09;是指在…

初识Spring (Spring 核心与设计思想)

文章目录 什么是 Spring什么是容器什么是 IoC理解 Spring IoCDI 概念 什么是 Spring Spring 官网 官方是这样说的: Spring 让每个人都能更快、更轻松、更安全地进行 Java 编程。春天的 专注于速度、简单性和生产力使其成为全球最受欢迎Java 框架。 我们通常所说的 Spring 指的…

东胜物流软件 SQL注入漏洞复现

0x01 产品简介 东胜物流软件是一款致力于为客户提供IT支撑的 SOP&#xff0c; 帮助客户大幅提高工作效率&#xff0c;降低各个环节潜在风险的物流软件。 0x02 漏洞概述 东胜物流软件 TCodeVoynoAdapter.aspx、/TruckMng/MsWlDriver/GetDataList、/MvcShipping/MsBaseInfo/Sav…

【Qt】QStackedWidget、QRadioButton、QPushButton及布局实现程序首页自动展示功能

效果 在程序启动后&#xff0c;有时不会进入到工作页面&#xff0c;会进入到产品展示页面。 动画如下&#xff1a; 首页展示 页面操作 当不点击时&#xff0c;一秒自动刷新一次&#xff1b;当点击时&#xff0c;会自动跳转到对应页面&#xff1b;点击上一页、下一页、及跳转页…

sprintf函数

1.头文件&#xff1a;#include <stdio.h> 2.函数原型&#xff1a;int sprintf ( char * str, const char * format, ... ) 3.函数功能&#xff1a;将数据格式化为字符串&#xff0c;再写入到字符串中 4.参数分析&#xff1a; str&#xff1a;是字符串指针&#xff0c…

判断二进制最低位数字

在二进制表示中&#xff0c;偶数的最低位&#xff08;最右边一位&#xff09;始终为0&#xff0c;而奇数的最低位始终为1。 当一个数与1进行按位与运算时&#xff0c;实际上是在检查该数的最低位是0还是1。 如果结果为0&#xff0c;则说明这个数是偶数&#xff0c;因为偶数的…

前端review

关于实时预览vs code中的颜色代码需要安装的插件&#xff0c;包括html文件格式中的颜色代码安装Flutter Color插件 VSCode 前端常用插件集合 1.Auto Close Tag自动闭合HTML/XML标签 2.Auto Rename Tag自动完成另一侧标签的同步修改 3.Beautify格式化代码&#xff0c;值得注…