【论文精读】| KBS2023-TMBL-多模态情感分析系列文章解读

TMBL: Transformer-based multimodal binding learning model for multimodal sentiment analysis

  • 一. KBS2023-TMBL-用于多模态情感分析的极向量和强度向量混合器模型
    • 1 Abstract
      • 1.1 Motivation
      • 1.2 Method
      • 1.3 Results
    • 2. Related Work
      • 2.1 情感分析
      • 2.1 基于transformer的
      • 2.1 模态融合策略
    • 3. 模型细节
      • 2.2 绑定学习模型
      • 2.3 损失函数
    • 4. 结果
    • 5. 自己的思考

一. KBS2023-TMBL-用于多模态情感分析的极向量和强度向量混合器模型

1 Abstract

多模态情感分析是人机交互研究的重要方向,它可以通过同时分析文本、视频和声音特征来准确识别个体的情绪状态。尽管当前的情绪识别算法使用多模态融合策略表现良好,但仍然存在两个关键挑战。第一个挑战是在融合之前有效提取模态不变和模态特定的特征,这需要不同模态之间的深层特征交互。第二个挑战涉及区分模态特征之间的高级语义关系的能力。为了解决这些问题,我们提出了一种新的模态绑定学习框架,并重新设计了 Transformer 模型的内部结构。我们提出的模态绑定学习模型通过结合双模态和三模态绑定机制解决了第一个挑战。这些机制分别处理模态特定和模态不变的特征,并促进跨模态交互。此外,我们通过在变压器结构的前馈层和注意层中引入细粒度卷积模块来增强特征交互。为了解决第二个问题,我们分别引入了 CLS 和PE特征向量来表示模态不变和特定模态特征。我们使用相似性损失和相异性损失来支持模型收敛。在广泛使用的 MOSI 和 MOSEI 数据集上的实验表明,我们提出的方法优于最先进的多模态情感分类方法,证实了其有效性和优越性。源代码 可以在 https://github.com/JackAILab/TMBL 找到。

1.1 Motivation

多模态情感分析旨在判断互联网用户在各种社交媒体平台上上传的多模态数据的情感。

(1)然而,一方面,现有研究侧重于文本、音频和视觉等多模态数据的融合机制,而忽略了文本与音频、文本与视觉的相似性以及音频与视觉的异质性,导致情感分析存在偏差。

(2)另一方面,多模态数据带来与情感分析无关的噪声,影响融合效果。

1.2 Method

我们设计了一个 Polar-Vector (PV) 和一个 Strength-Vector (SV) 来分别判断情绪的极性和强度。

第一,PV是从文本和视觉特征的交流中获得的,用来决定情绪是积极的、消极的还是中性的。

第二,SV 是从文本和音频特征之间的通信中获得的,用于分析 0 到 3 范围内的情感强度。最后,我们混合 PV 和 SV 得到一个融合向量来判断情感状态。

第三,我们设计了一个由多个全连接层和激活函数组成的 MLP-Communication 模块(MLP-C),使不同的模态特征在水平和垂直方向上充分交互,是利用MLP进行多模态信息交流的一种新颖尝试。

在这里插入图片描述

图1 我们提出的TMBL的整个框架,其中优化的变压器由MBTA和GBFN组成。预测的特征将通过分类标记来区分,模态位置是可学习的。

1.3 Results

拟议的 TMBL 在两个公开可用的数据集 CMU-MOSEICMU-MOSI 上进行了测试,与基线方法相比,它在 CMU-MOSEI 上实现了最先进的 (SOTA) 性能。这些代码位于:https://github.com/JackAILab/TMBL

2. Related Work

2.1 情感分析

然而,由于早期融合和晚期融合都不能充分探索模态之间的跨视图动态交互,因此忽略了不同模态之间的低级交互 [1]。因此,研究人员提出了许多细粒度的融合方案,包括基于张量的融合[35,36]、词级融合[9,15]、基于翻译的融合[21,37,38]、基于上下文的融合[39,40]、基于量子的融合[41]和基于特征空间操作的融合[28]。值得注意的是,这些特征融合方案旨在促进模式之间更好的交互

2.1 基于transformer的

上述基于 Transformer 的模型取得了优异的性能。然而,大多数模型都旨在更有效地与两种模式交互 [18,23,43],而很少考虑三种模式的交互。此外,现有的基于 Transformer 的模型不足以在一个框架中提取每个模式特征。本文提出的 Transformer 模型可以同时提取三个模态特征,我们还修改了 Transformer 模型的前馈层和注意力层,使模型能够提取更细粒度的模态特征。

2.1 模态融合策略

然而,现有的模态融合方法对于模态不变和模态特定的考虑是不够的,很少考虑不同模态特征之间的语义顺序。有趣的是,一个好的模态顺序可以帮助模型更好地理解提取特征的含义,从而提高模型的鲁棒性。

3. 模型细节

如图1所示,我们提出的模型框架首先将模态特征分为两类,模态不变和模态特异性。请注意,特定于模态的特征是指每个模态数据本身的固有特征信息,模态不变特征是指所有模态共享的特征信息,通常需要首先将模态数据投影到相同的隐藏层维度上。

具体来说,对于模态特定的特征数据,我们使用跨模态策略来完成模态特定特征的交互,对于模态不变特征,我们设计了一种模态绑定学习策略来完成模态之间的交互。其次,我们使用优化的 All-in-One Transformer 架构来更好地捕获这些交互模式之间的特征。优化后的Transformer由多头绑定转置注意(MBTA)和门控绑定前馈网络(GBFN)组成。第三,我们实现了包含 CLS Token 和 Position Embedding 以增强模型识别模态类型和上下文的能力。因此,模态集成的损失函数分为三个部分,包括情感预测的分类损失、模态不变相似损失和模态特定不相似损失。

2.2 绑定学习模型

在这里插入图片描述
在这里插入图片描述

2.3 损失函数

在这里插入图片描述

4. 结果

在这里插入图片描述
对比的一系列baseline

在这里插入图片描述

消融结果和可视化实验

在这里插入图片描述

5. 自己的思考

  • 还可以考虑在此基础上,使用 text embedding condition 的方式,增强模型的理解力和泛化性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/697024.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于Echarts的大数据可视化模板:服务器运营监控

目录 引言背景介绍研究现状与相关工作服务器运营监控技术综述服务器运营监控概述监控指标与数据采集可视化界面设计与实现数据存储与查询优化Echarts与大数据可视化Echarts库以及其在大数据可视化领域的应用优势开发过程和所选设计方案模板如何满足管理的特定需求模板功能与特性…

基于Java的qq截图工具参考论文(论文 + 源码)

【免费】基于Java的qq截图工具.zip资源-CSDN文库https://download.csdn.net/download/JW_559/89304179 基于Java的qq截图工具 摘要 当今时代是飞速发展的信息时代,人们在对信息的处理中对图像的处理量与日俱增,这一点在文档人员上显得非常突出。 本软…

将mongo查出的数据导出来,变成json,然后转Excel

在MongoDB shell或使用命令行工具(如mongo或mongosh)中,你可以将查询结果输出到JSON文件。以下是一个示例命令,它执行上述聚合查询并将结果写入名为output.json的文件: mongo your_database_name --quiet --eval db.u…

【qt】数值的输入与输出

数值的输入与输出 一.与c中的输入与输出的区别二.QString转数值三.数值转QString1.number()2.asprintf() 四.小项目1.总价和进制2.QSpinBox代替3.QSlider滑动块4.QScrollBar滚动条5.QDial表盘6.QLcdnumber lcd显示 五.总结一下下 一.与c中的输入与输出的区别 在c中我们一般通过…

【每日刷题】Day39

【每日刷题】Day39 🥕个人主页:开敲🍉 🔥所属专栏:每日刷题🍍 🌼文章目录🌼 1. 622. 设计循环队列 - 力扣(LeetCode) 2. 387. 字符串中的第一个唯一字符 - …

实训七:实现用户管理功能

1.题目 实现用户管理功能。 2.目的 (1)理解Node.js程序的基本原理。 (2)掌握利用Node.js建立服务器程序的基本方法。 (3)理解Ajax的工作原理。 (4)掌握编写Ajax程序的基本方法。 (5)会利用所学知识设计简单的应用程序。 3.内容 设计程序能够对用户进行管理,实现查询…

出租车计价器设计与实现(论文 + 源码)

关于java出租车计价器设计与实现.zip资源-CSDN文库https://download.csdn.net/download/JW_559/89304164 出租车计价器设计与实现 摘 要 在我国,出租车行业是八十年代初兴起的一项新兴行业,随着出租车的产生,计价器也就应运而生。但当时在全…

【ARM Cortex-M 系列 2.1 -- Cortex-M7 Debug system registers】

请阅读【嵌入式开发学习必备专栏】 文章目录 Debug system registers中断控制状态寄存器(ICSR)Debug Halting Control and Status Register, DHCSR Debug 寄存器DCRSR与DCRDRCPU 寄存器读操作CPU 寄存器写操作CPU 寄存器选择CPU 寄存器读写示例 调试故障…

图片加载框架Glide

目录 一、Glide基础1.1 加载图片1.2 核心代码1.3 占位图1.4 指定图片格式1.5 指定图片大小 二、Glide缓存机制2.1 内存缓存2.2 硬盘缓存2.3 重写getCacheKey() 三、Glide的回调与监听3.1 回调源码追溯3.2 into3.3 preload()方法3.4 downloadOnly()方法3.5 listener()方法 四、图…

一个基于servlet的MVC项目-登录验证

一、MVC的概念 MVC是Model、View、Controller的缩写,分别代表 Web 应用程序中的3种职责1 模型:用于存储数据以及处理用户请求的业务逻辑。 2视图:向控制器提交数据,显示模型中的数据。 3控制器:根据视图提出的请求,判断将请求和数据交给哪个…

2024中国(重庆)航空航天暨无人机低空经济展览会

2024中国(重庆)航空航天暨无人机低空经济展览会 邀请函 组织机构 主办单位: 中国航空学会 重庆市南岸区人民政府 招商执行单位: 重庆港华展览有限公司 展会概括∶ 2024中国航空航天暨无人机低空经济展览会将于2024年8月23-25日在重庆…

【Java EE】多线程(三)线程状态

📚博客主页:爱敲代码的小杨. ✨专栏:《Java SE语法》 | 《数据结构与算法》 | 《C生万物》 |《MySQL探索之旅》 |《Web世界探险家》 ❤️感谢大家点赞👍🏻收藏⭐评论✍🏻,您的三连就是我持续更…