IEEE ICME 2023论文|基于交互式注意力的语音情感识别联合网络

论文题目:

A Joint Network Based on Interactive Attention for Speech Emotion Recognition

作者列表:

胡英,侯世静,杨华敏,黄浩,何亮

研究背景

语音情感识别(Speech Emotion Recognition,SER)指通过让机器检测和识别人类语音信号中如喜悦、愤怒、悲伤、惊讶、恐惧等多种情感类别。为了适用于如客服对话等说话人身份是不重要因素的真实场景,即避免说话人的特征影响语音情感识别的结果,进一步研究说话人无关设置下的语音情感识别任务变得非常必要[1]。且在语音情感识别研究领域,带有注释的大数据集很难获得,现有的小数据集可能包含偏差,在说话人无关设置下这些数据集上训练得到模型可能无法很好的泛化。

本文方案

在本文中提出了一个单独频谱模型和一个结合了预训练模型和频谱模型语音情感识别联合网络。首先设计一个频谱模型提取到语音情感的特性表征,再通过Wav2Vec2.0[2]预训练模型学习到语音的共有表征。通过设计不同的交互注意力模块将两个中间特征进行融合,更好地利用音频信息。并设计多分支训练策略对联合网络进行优化。在说话人无关设置下取得良好的实验结果。

图片

图1. 本文提出的SER框架。(A)联合网络,(B)基于频谱的模型,(C)MobileNetV3(MV3) 模块

基于频谱的模型:将音频信号经过预处理得到的对数梅尔谱图作为输入特征,经过卷积神经网络以及特征聚合单元[3]提取情感相关的语义特征,继而通过Bi-GRU及全局-局部注意力模块得到语音情感相关的特性特征。

Wav2Vec2.0预训练模型:在大规模无标签的数据集上通过自监督学习从原始语音中学习到语音的一个共有表征,通过微调方式迁移到语音情感识别任务上。

联合网络:在上述两个单支路语音情感识别模型基础上提出了一个联合网络,如图二所示,将从预训练模型和基于频谱的模型中得到的共性特征和特性特征通过不同交互注意力模块[4]融合,更好地利用语音中的情感信息。

多分支训练策略:在联合网络的训练阶段中采用了多分支训练策略[5],从预训练模型和基于频谱的模型得到的共性特征和特性特征𝑌,以及经过交互注意力模块融合得到的融合特征都分别通过一个分类器产生语音情感识别预测,在测试阶段只有联合网络通过线性层进行情感识别分类。

图片

 图2. 两种不同的交互注意力模块

实验结果分析

实验使用了IEMOCAP数据集对上述提出的联合网络进行训练和测试。表1可以看出提出的单分支频谱模型在说话人相关的设置下优于其他四种基于频谱的算法。并进一步进行消融实验,验证了特征聚合单元、全局-局部注意力、多阶段训练策略的有效性。

表1. 说话人相关设置下对基于频谱的模型与主流的四种算法进行比较及消融实验

图片

表2将基于频谱的模型在说话人相关和无关设置下进行比较,可得在说话人无关的设置下,UA和WA分别较说话人相关设置下降低了11%左右。为了应用于说话人特征是不重要因素的实际场景中,在之后实验中选择说话人无关设置。

表2. 说话人相关和无关设置下基于频谱的模型的性能比较(无 MSTS)

图片

表3上半部分为在说话人无关设置下将Wav2Vec2.0预训练模型作为特征、微调Wav2Vec2.0预训练模型以及微调Hubert 预训练模型迁移到语音情感识别上进行比较,验证选择微调Wav2Vec2.0预训练模型的有效性。下半部分为验证交互注意力模块IAM2优于IAM1以及多分支训练策略的有效性。

表3. 说话人无关设置下单支模型性能评估以及联合网络中IAM和MBTS的消融实验

图片

表4为说话人无关设置下将联合网络与四种仅利用语音的单模态方法和两种利用语音和文本的双模态方法进行了比较,可得本文提出的联合网络在单模态方法中表现最佳,与多模态算法也有一定的可比性。

表4. 说话人无关设置下对联合网络和其他主流六种算法评估

图片

 小结

本文提出了一种单分支的基于频谱的SER模型和结合预训练和基于频谱模型的联合网络,并设计了不同的交互关注模块融合联合网络的两个单分支模型的中间特征。而且采用多分支训练策略优化联合网络。为了更好地应用于实际应用场景,本文在说话人无关的设置下进行了实验,验证了语音情感识别联合网络的优越性。

参考文献

[1] Zou H, Si Y, Chen C, et al. Speech emotion recognition with co-attention based multi-level acoustic information[C]//International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022: 7367-7371.

[2]Baevski A, Zhou Y, Mohamed A, et al. wav2vec 2.0: A framework for self-supervised learning of speech representations[J]. Advances in neural information processing systems, 2020, 33: 12449-12460.

[3] Peng Z, Lu Y, Pan S, et al. Efficient speech emotion recognition using multi-scale cnn and attention[C]//International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021: 3020-3024.

[4] Tang Y, Hu Y, He L, et al. A bimodal network based on Audio–Text Interactional-Attention with ArcFace loss for speech emotion recognition[J]. Speech Communication, 2022, 143: 21-32.

[5] Hu Y, Chen Y, Yang W, et al. Hierarchic temporal convolutional network with cross-domain encoder for music source separation[J]. IEEE Signal Processing Letters, 2022, 29: 1517-1521.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/22679.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java正则表达式简介及Jar包

Java提供了java.util.regex包,用于与正则表达式进行模式匹配。 Java正则表达式与Perl编程语言非常相似,非常容易学习。 正则表达式定义了字符串的模式。 正则表达式可以用来搜索、编辑或处理文本。 正则表达式并不仅限于某一种语言,但是在…

【LeetCode热题100】打卡第34天:排序链表乘积最大的子数组

文章目录 【LeetCode热题100】打卡第34天:排序链表&乘积最大的子数组⛅前言 排序链表🔒题目🔑题解 乘积最大的子数组🔒题目🔑题解 【LeetCode热题100】打卡第34天:排序链表&乘积最大的子数组 ⛅前…

COT、COT-SC、TOT 大预言模型思考方式||底层逻辑:prompt设定

先讲一下具体缩写的意思 COT-chain of thoughts COT-SC (Self-consistency) Tree of thoughts:Deliberate problem solving with LLM 我理解其实不复杂 1. 最简单的是:直接大白话问一次 (IO) 2. 进阶一点是:思维链,…

DolphinScheduler使用问题记录

1.资源中心 功能板块 出现 storage not startup #问题原因 提示:“storage not startup”,顾名思义:未启用存储 #解决方式 1. 修改两个 common.properties 文件: api-server/conf/common.properties worker-server/conf/common.p…

Azure Kinect DK 在设备管理器找不到此设备

参考 Azure Kinect DK 在设备管理器找不到此设备_Thomas_yx的博客-CSDN博客 type-c------------------type-c 接电脑,数据传输 圆------------------usb 电脑线

【算法基础】搜索与图论

DFS 全排列问题 842. 排列数字 - AcWing题库 #include<bits/stdc.h> using namespace std; const int N10; int n; int path[N]; bool st[N]; void dfs(int x) {if(x>n){for(int i1;i<n;i) cout<<path[i]<<" ";cout<<endl;return ;…

Linux(centos 7)将 ens33 改为 eth0

背景&#xff1a; 先说明一下 eth0 与 ens33 的关系&#xff0c;目前的主流网卡为使用以太网络协定所开发出来的以太网卡&#xff08;Ethernet)&#xff0c;因此我们 Linux 就称呼这种网络接口为 ethN (N为数字)。 举个例子&#xff1a;就是说主机上面有一张以太网卡&#xff0…

element-ui 使用 el-descriptions

<el-descriptions :column"2" border size"mini" style"margin-top: 10px;" :labelStyle"{width: 123px}" :contentStyle"{width:42%}"><el-descriptions-item label"选择项目"><el-select size&…

Linux Ubuntu安装RabbitMQ服务

文章目录 前言1.安装erlang 语言2.安装rabbitMQ3. 内网穿透3.1 安装cpolar内网穿透(支持一键自动安装脚本)3.2 创建HTTP隧道 4. 公网远程连接5.固定公网TCP地址5.1 保留一个固定的公网TCP端口地址5.2 配置固定公网TCP端口地址 前言 RabbitMQ是一个在 AMQP(高级消息队列协议)基…

Scratch 多场景收集物品

Scratch 多场景收集物品 本程序开始运行时4种物品各复制10次并移动到随机位置&#xff0c;交通工具角色跟随鼠标&#xff0c;碰到上述4种物品后删除物品&#xff0c;物品清空后切换到下一个背景、更换交通工具角色并重新生成4种物品。交通工具角色的切换通过判断背景变量的值来…

ChatGLM使用记录

ChatGLM ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型&#xff0c;基于 General Language Model (GLM) 架构&#xff0c;具有 62 亿参数。结合模型量化技术&#xff0c;用户可以在消费级的显卡上进行本地部署&#xff08;INT4 量化级别下最低只需 6GB 显存&#xff0…

DNS详细解析

文章目录 DNS是什么以及作用下载DNS服务named.conf DNS查询DNS缓存机制解析过程递归查询和迭代查询 DNS服务器的类型DNS域名DNS服务器的类型搭建dns服务器缓存域名服务器主域名服务器从域名服务器排错反向解析 CDN介绍 DNS转发介绍配置 DNS劫持 DNS 是什么以及作用 DNS&#…