多模态融合颠覆式创新!计算成本直降46.5%,准确性损失忽略不计

以往的融合方法从本质上讲是静态的,也就是以相同的计算处理和融合多模态输入,没有考虑不同多模态数据的不同计算需求。而近期,有关动态多模态融合的研究有了新的成果,它能够自适应融合多模态数据并在推理过程中生成数据依赖的前向路径,在计算效率、适用性、决策准确性等方面展现出了强有力的优势。比如DynMM模型、SkipcrossNets模型。

  • DynMM模型通过在模态层面和融合层面进行渐进融合,可以将计算成本降低46.5%,准确性损失可以忽略不计。

  • 清华&北航提出的SkipcrossNets模型也达到了类似的效果,能够自适应地结合LiDAR点云和摄像机图像,而不受特定融合时期的限制。

除以上两种方法以外,还有一些值得关注的动态多模态融合相关成果7篇。我也都整理了,附上开源代码。另外为了让大家对多模态融合前沿思路有全面的了解,我还准备了2024最新19个融合创新方法,主要有联合自回归汇合框架、多任务模型融合、渐进式融合、正交序列融合等。

论文原文以及开源代码需要的同学看文末

DynMM模型

Dynamic Multimodal Fusion

方法:论文提出一种动态多模态融合(DynMM)的方法,该方法能够自适应地融合多模态数据,并在推理过程中生成数据相关的前向路径。通过引入一个门控函数来提供基于多模态特征的模态级或融合级的实时决策,并提出了一个资源感知的损失函数来鼓励计算效率。在各种多模态任务上的结果表明了该方法的高效性和广泛适用性。

创新点:

  • 动态多模态融合(DynMM)是一种新的方法,它根据输入数据自适应地融合多个模态的信息。与静态多模态架构相比,DynMM具有减少计算量、提高表示能力和鲁棒性的优势。

  • DynMM通过动态融合实现了对“简单”输入的计算节省,这些输入可以仅使用部分模态或简单的融合操作进行正确预测。对于“困难”的多模态输入,DynMM可以通过依赖所有模态和复杂的融合操作来实现与静态网络相同的表示能力。

  • DynMM的设计灵感来自于多模态数据的自然冗余性,它提供了一种不同于现有工作的视角。在模态级别和融合级别上,DynMM采用渐进融合的方式,根据每个输入选择一部分或全部模态进行预测,并提供了关于融合操作的样本级决策。这种动态架构在“简单”输入上节省了计算量,在“困难”输入上实现了更好的性能。

SkipcrossNets模型

SkipcrossNets: Adaptive Skip-cross Fusion for Road Detection

方法:论文提出了一种新颖的融合架构,称为skip-cross网络(SkipcrossNets),用于自动驾驶中的多模态融合。该网络通过逐层连接两个模态的特征图,实现了自适应地融合LiDAR点云和相机图像。通过这种策略,可以选择两个数据流中最相似的特征层,为稀疏点云特征提供补充效果。此外,网络还被分为多个块,以减少特征融合的复杂性和模型参数的数量。

创新点:

  • 提出了一种新颖的跳跃交叉融合策略,用于在双流网络的每一层进行融合,并自适应地选择最佳融合周期,而不仅仅发生在特定的时期。这种策略增强了特征传播和多模态特征融合,为稀疏点云特征提供了互补效果。

  • 将激光雷达投影到图像平面上生成高度差异图像,以更好地区分道路区域并减少由空间差异引起的融合问题。这种方法提高了道路检测的准确性和性能。

  • 所提出的模型体积小且速度快,适用于处理稀疏点云数据,更适合满足自动驾驶的实际需求。

其他创新方法

Provable Dynamic Fusion for Low-Quality Multimodal Data

方法:论文提出了一种新颖的质量感知多模态融合(QMF)框架,该框架利用基于能量的不确定性来表征每个模态的质量。作者通过理论分析和实验证明了动态融合方法的优势和条件,并提出了QMF方法作为一种具有更好泛化能力的动态多模态融合方法。

创新点:

  • 该论文提出了一种新的动态多模态融合方法,名为Quality-aware Multimodal Fusion (QMF),用于实现可靠的多模态融合。

  • 该方法利用基于能量的不确定性来表征每个模态的质量,从而提高了动态融合的泛化能力。

  • 通过理论分析和实验证明,动态融合的泛化能力与不确定性估计的性能相一致,为设计和评估新的动态融合算法提供了原则。

Adaptive Multi-Modalities Fusion in Sequential Recommendation Systems

方法:本文提出了一种基于图的多模态特征融合方法,名为MMSR。MMSR将每个用户的行为历史表示为一个图,其中每个物品的多模态特征表示为交叉链接的节点。图中的同质节点之间的边表示内部模态的顺序关系,异质节点之间的边表示模态之间的相互依赖关系。MMSR通过双重注意力在图传播过程中区分同质和异质邻居节点。为了自适应地分配节点的融合顺序,MMSR允许每个节点的表示通过更新门异步更新。

创新点:

  • 作者提出了一种图形构建方法,通过创建组合嵌入来表示节点,将节点表示为较小组的组合。这种方法通过将模态特征进行聚类并选择聚类中心的标识符作为模态代码来构建图形。

  • 作者提出了一种双重注意力函数的图聚合方法,用于区分同质和异质节点之间的相关性。这利用基于内容的注意力和键值注意力进行测量。此外,作者还提出了一种非侵入式传播方法,允许同质和异质邻居相互影响,但不会产生破坏性的干扰。

  • 作者提出了一种图更新方法,每个节点通过更新门自适应地选择融合顺序。这意味着每个节点可以决定是先融合异质信息,然后再融合同质信息,还是反之。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“融合创新”获取论文+代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/459007.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java学习网络编程

Java学习网络编程 大纲 网络相关概念IP地址网络协议InetAdressSocket 具体案例 1. 网络相关概念 网络 网络通信 2. IP地址 域名 3.网络协议 4. InetAdress 获得本机的名字和IP public static void main(String[] args) throws UnknownHostException {InetAddress inetA…

【PowerShell】修改Windows网络配置的常用命令

PowerShell(PS)是一种强大的任务自动化和管理框架,具有丰富的命令和语法,可以用于编写脚本来管理Windows操作系统和其他应用程序。它的开放式架构和跨平台支持使得它成为一个灵活和可扩展的工具。 在网络配置方面,Powe…

MATLAB计算多边形质心/矩心

前言:不规则四边形的中心 不规则四边形的出心有多种定义,以下是最常见的三种: 1.重心:重心是四边形内部所有顶点连线交点的平均位置。可以通过求解四个顶点坐标的平均值来找到重心。 2.质心:质心是四边形内部所有质点…

2 物理层(二):数据编码和调制

目录 1 数据编码和调制1.1 数字数据的数字信号编码1、常见概念2、二进制数字数据的数字信号编码方法 1.2 模拟数据的数字信号编码1、脉冲振幅调制(PAM)2、脉冲编码调制(PCM)3、采样频率 1.3 数字数据的模拟调制1.4 模拟数据的模拟…

HarmonyOS 鸿蒙应用开发(十、第三方开源js库移植适配指南)

在前端和nodejs的世界里,有很多开源的js库,通过npm(NodeJS包管理和分发工具)可以安装使用众多的开源软件包。但是由于OpenHarmony开发框架中的API不完全兼容V8运行时的Build-In API,因此三方js库大都需要适配下才能用。 移植前准备 建议在适…

深度测评:ONLYOFFICE 桌面编辑器 v8.0新功能

目录 前言 一、PDF表单处理:提升办公效率 二、RTL(从右到左)支持:满足不同语言习惯 三、Moodle集成:教育行业的新助力 四、本地界面主题:个性化办公体验 五、性能优化与稳定性提升 六、性能与稳定性…

《dx12 龙书》第四部分学习笔记——预备知识(下)

7、多重采样技术的原理 由于屏幕中显示的像素不可能是无穷小的,所以并不是任意一条直线都能在显示器上“平滑”而完美地呈现出来。即为以像素矩阵 (matrix of pixels, 可以理解为“像素2D数组”)逼近直线的方法所产生的“阶梯” &…

Linux安全技术与iptables防火墙

一.安全技术: 入侵检测系统(Intrusion Detection Systems):特点是不阻断任何网络访问,量化、定位来自内外网络的威胁情况,主要以提供报警和事后监督为主,提供有针对性的指导措施和安全决策依据,…

【leetcode热题100】搜索二维矩阵

给你一个满足下述两条属性的 m x n 整数矩阵: 每行中的整数从左到右按非严格递增顺序排列。每行的第一个整数大于前一行的最后一个整数。 给你一个整数 target ,如果 target 在矩阵中,返回 true ;否则,返回 false 。…

Java技术栈全解析,选修选课系统新篇章

✍✍计算机编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡ Java实战 |…

MATLAB环境下用于提取冲击信号的几种解卷积方法

卷积混合考虑了信号的时延,每一个单独源信号的时延信号都会和传递路径发生一 次线性瞬时混合;解卷积的过程就是找一个合适的滤波器,进行反卷积运算,得到源信号的近似解。 声音不可避免的会发生衍射、反射等现象,所以&…

JavaScript中call、apply、bind方法的应用与区别

在JavaScript中,call、apply和bind是函数的三个重要方法,它们虽然功能不同,但都可以用来改变函数的执行上下文或者传递参数。本文将分别介绍call、apply和bind方法的应用和区别,并附带示例代码。 一、call方法 call方法的作用是…