多模态融合技术升级!新阶段2大融合模式取得最优性能

传统的多模态融合方法面临着模态表示不一致、灵活性不足等问题,难以适应日益复杂的实际需求。

而随着大模型等新技术的发展,研究者将这些新技术与传统的多模态融合相结合,提出了新阶段的融合模式,包括多模态大模型时代的新架构、动态多模态融合等。这些新的融合模式和方法不仅提高了模型的性能,也为处理更复杂的现实问题提供了新的思路,是我们做创新发论文的好方向。

本文介绍6种传统模态融合方法,重点介绍2种热门的新阶段融合模式(多模态新架构+动态多模态融合),每种方法都附有代表论文以及相应代码(共28篇),方便同学们学习。

论文和代码需要的同学看文末

1.传统模态融合方法

①在将特征提取并转换到同一特征空间后,利用cross-attention等机制进行特征融合

  • 代表论文:DeepFusion:Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection

②在编码过程中逐步进行特征融合

  • 代表论文:CEKD:Cross-Modal Edge-Privileged Knowledge Distillation for Semantic Scene Understanding Using Only Thermal Images

③分别对不同模态的特征进行编码提取,然后融合特征图

  • 代表论文:Multi-exposure image fusion via deep perceptual enhancement

④在图像编码前进行特征融合(将RGB图像转换为YCbCr并在Y通道进行融合)

  • 代表论文:Rethinking multi-exposure image fusion with extreme and diverse exposure levels: A robust framework based on Fourier transform and contrastive learning

⑤根据不同模态生成对应的策略,并进行策略融合

  • 代表论文:Multi-modal policy fusion for end-to-end autonomous driving

⑥分别对两种模态进行编码,并根据结果进行对比学习

  • 代表论文:Multi-modal contrastive mutual learning and pseudo-label re-learning for semi-supervised medical image segmentation

2.新阶段的融合模式

①多模态新架构

进入多模态大模型时代,融合方式基本就是VIT+Only Decoder Transformer的结构,这种结构的核心在于将图像和文本信息通过一个共享的Transformer架构进行处理,以实现多模态信息的融合。

代表论文1:
Vision Language Pre-training by Contrastive Learning with Cross-Modal Similarity Regulation

方法:论文研究了视觉语言预训练(VLP)中跨模态对比学习中假阴性的问题。通过对互信息(MI)优化的角度进行理论分析,论文证明了在存在非可忽略的假阴性情况下,优化InfoNCE损失等价于最大化MI的下界,并提出了一种基于逐步优化的跨模态相似性的对比学习策略,以更准确地优化图像/文本锚点与其负样本之间的MI。

主要内容包括:(1)从MI优化的角度研究假阴性问题;(2)提出了一种基于跨模态相似性的对比学习策略;(3)在四个典型的视觉语言下游任务上验证了该方法的有效性。

创新点:

  • 推导了一个更一般的MI下界,揭示了在存在非可忽略的假负样本时,(部分)假负样本与锚点之间的MI也很重要。

  • 提出了一种基于跨模态相似度调控的全新对比学习策略。作者假设图像和文本之间的MI与它们的语义相似度呈正相关。因此,作者引入了一个对比权重,根据跨模态相似度进行推导,并在训练过程中逐步优化,用于每个负样本作为对比的调节器。这个调节器将引导模型适当地优化负样本的MI,避免了过度减少MI,从而得到一个更具语义结构的表示空间。

代表论文2:
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

方法:本文介绍了一种名为BLIP-2的通用和高效的视觉语言预训练方法。该方法利用了冻结的预训练图像编码器和大型语言模型(LLMs),在视觉语言预训练过程中具有较少的可训练参数。

创新点:

  • BLIP-2是一种通用且高效的预训练策略,通过从现成的冻结预训练图像编码器和大型语言模型中引导视觉语言预训练,从而解决了视觉和语言之间的模态差距问题。

  • BLIP-2通过轻量级的查询Transformer桥接了模态差距,该Transformer在两个阶段进行预训练。第一个阶段从冻结的图像编码器中引导视觉语言表示学习,第二个阶段从冻结的语言模型中引导视觉到语言的生成学习。

②从静态融合到动态融合

以往的融合方法从本质上讲是静态的,也就是以相同的计算处理和融合多模态输入,没有考虑不同多模态数据的不同计算需求。而动态多模态融合能够自适应融合多模态数据并在推理过程中生成数据依赖的前向路径,在计算效率、适用性、决策准确性等方面展现出了强有力的优势。

代表论文1:
Deep Equilibrium Multimodal Fusion

方法:论文提出了一种动态多模态融合架构,能够自适应地模拟从低层到高层的跨模态交互,从而使架构适用于各种多模态任务。该方法能够动态地模拟从低级到高级的模态信息,并在多模态融合中实现了新的最优性能。

创新点:

  • 采用深度均衡(DEQ)方法进行多模态融合,通过寻找动态多模态融合过程的一个固定点来建模特征之间的相关性。

  • 提出了一种新的深度均衡(DEQ)融合方法,通过以自适应和递归的方式对低级别到高级别的特征之间的相关性进行建模,从而充分编码跨模态信息,从而实现高效的多模态学习。

代表论文2:
MM-DFN: MULTIMODAL DYNAMIC FUSION NETWORK FOR EMOTION RECOGNITION IN CONVERSATIONS

方法:本文提出了一种多模态动态融合网络(MM-DFN)来全面理解多模态情感识别任务中的对话背景。该网络设计了一个基于图的动态融合(GDF)模块来融合对话中的多模态特征。GDF模块通过捕捉不同语义空间中的上下文信息的动态来减少冗余并增强模态之间的互补性。

创新点:

  • 提出了一种新颖的多模态动态融合网络(MM-DFN)来充分理解多模态对话环境。该网络设计了一种基于图的动态融合模块,用于在对话中融合多模态上下文特征。通过捕捉不同语义空间中的上下文信息动态变化,降低了冗余性,并增强了不同模态之间的互补性。

  • 进行了大量实验证明了MM-DFN模型的有效性和优越性。在两个公开基准数据集上,MM-DFN模型始终在性能上表现最好。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“多模态28”获取全部论文+代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/519422.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度神经网络 基本知识 记录

资料:https://www.bilibili.com/video/BV1K94y1Z7wn/?spm_id_from333.337.search-card.all.click&vd_source14a476de9132ba6b2c3cbc2221750b99 计划:3~4天 注:网课讲的内容比较糅杂,记录的内容可能会出现重复 杂 人工智能…

Rust入门:C++和Rust动态库(dll)的相互调用

无论是C调用Rust动态库还是Rust调用C动态库,其操作基本都是一样地简单,基本和C调用C的动态库没什么区别,只需要列出所需要导入的函数,并链接到相应的lib文件即可。 这里,在windows中,我们以dll动态库为例说…

【电路笔记】-NPN晶体管

NPN晶体管 文章目录 NPN晶体管1、概述2、双极NPN晶体管配置3、NPN晶体管中的α和β关系4、示例5、共发射极配置1、概述 NPN 晶体管是三端三层器件,可用作放大器或电子开关。 在前面的文章中,我们看到标准双极晶体管或 BJT 有两种基本形式。 NPN(负-正-负)配置和PNP(正-负…

《幸运的基督徒》Python

题目描述 有15个基督徒和15个非基督徒在海上遇险, 为了能让一部分人活下来不得不将其中15个人扔到海里面去, 有个人想了个办法就是大家围成一个圈,由某个人开始从1报数, 报到9的人就扔到海里面,他后面的人接着从1开始报…

JavaScript基础4之原型的原型继承、原型链和理解对象的数据属性、访问器属性

JavaScript基础 原型原型继承问题解决 原型链isPrototypeOf()Object.getPrototypeOf() 理解对象数据属性访问器属性 原型 原型继承 继承是面向对象编程的另一个特征,通过继承进一步提升代码封装的程度,JavaScript中大多是借助原型对象实现继承的特性。…

机器学习——感知机模型

机器学习系列文章 入门必读:机器学习介绍 文章目录 机器学习系列文章前言1. 感知机1.1 感知机定义1.2 感知机学习策略 2. 代码实现2.1 构建数据2.2 编写函数2.3 迭代 3. 总结 前言 大家好,大家好✨,这里是bio🦖。这次为大家带来…

【R语言实战】聚类分析及可视化

🍉CSDN小墨&晓末:https://blog.csdn.net/jd1813346972 个人介绍: 研一|统计学|干货分享          擅长Python、Matlab、R等主流编程软件          累计十余项国家级比赛奖项,参与研究经费10w、40w级横向 文…

消息队列-Kafka-如何进行顺序消费

全局有序 只有 1 个分区,那这个时候就是能够保证消息的顺序消费。 分区有序 如果我们还是想同时消费多个分区并且保证有序,这个时候我们需要将需要保证顺序的消息路由到同一个分区。 在发送消息的时候我们可以看到: 上面的代码定义了消息…

1 数据分析概述与职业操守 (3%)

1、 EDIT数字化模型 E——exploration探索 (是什么) 业务运行探索:探索关注企业各项业务的运行状态、各项指标是否合规以及各项业务的具体数据情况等。 D——diagnosis 诊断 (为什么) 问题根源诊断:当业务指标偏离正常值时&…

C语言从入门到精通 第十二章(程序的编译及链接)

写在前面: 本系列专栏主要介绍C语言的相关知识,思路以下面的参考链接教程为主,大部分笔记也出自该教程。除了参考下面的链接教程以外,笔者还参考了其它的一些C语言教材,笔者认为重要的部分大多都会用粗体标注&#xf…

【C++】string类的基础操作

💗个人主页💗 ⭐个人专栏——C学习⭐ 💫点击关注🤩一起学习C语言💯💫 目录 导读 1. 基本概述 2. string类对象的常见构造 3. string类对象的容量操作 4. string类对象的访问及遍历操作 5. 迭代器 6.…

第五十二回 戴宗二取公孙胜 李逵独劈罗真人-飞桨AI框架安装和使用示例

吴用说只有公孙胜可以破法术,于是宋江请戴宗和李逵去蓟州。两人听说公孙胜的师傅罗真人在九宫县二仙山讲经,于是到了二仙山,并在山下找到了公孙胜的家。 两人请公孙胜去帮助打高唐州,公孙胜说听师傅的。罗真人说出家人不管闲事&a…