复旦大学王龑团队发布《静态与动态情感的面部表情识别》综述

news/2024/9/21 3:03:01/文章来源:https://www.cnblogs.com/xfuture/p/18393405

file

论文链接:https://arxiv.org/pdf/2408.15777

复旦大学,王龑博士后领衔,发布《静态与动态情感的面部表情识别》(A Survey on Facial Expression Recognition of Static and Dynamic Emotions)综述,对基于图像的静态面部表情识别(SFER)和基于视频的动态面部表情识别(DFER)方法进行了全面综述,从模型导向的发展到挑战聚焦的分类进行了系统分析。

论文首先对近期的综述进行批判性比较,介绍了常用的数据集和评估标准,并深入探讨了FER的工作流程,以建立坚实的研究基础。接着,系统性地回顾了应对SFER的八大主要挑战(如表情干扰、不确定性、复合情绪和跨域不一致性)以及应对DFER的七大主要挑战(如关键帧采样、表情强度变化和跨模态对齐)的代表性方法。此外,分析了近期的进展、基准表现、主要应用及伦理考量。最后,提出了五个有前景的未来研究方向和发展趋势,以指导后续研究。本论文的项目页面可访问:https://github.com/wangyanckxx/SurveyFER。

研究背景

情感计算在关键国家领域具有深远的影响和重要性。英国创新署(Innovate UK)将“人工智能(AI)情感和表情识别”列为2024年对英国经济和社会产生深刻影响的50项新兴技术之首。中国科学技术协会也隆重发布了2024年的重大科学问题,其中,具有情感和情感智能的数字人和机器人研究被选为十大前沿科学问题之一。显然,AI情感和表情识别技术的发展已成为通用人工智能、数字计算和多学科研究的必然要求。

面部表情是人类情感表达的主要和直接手段,在人际互动中频繁使用,且具有极其重要的意义。面部表情通过非语言的方式传达比声音、手势和身体姿势更丰富的情感信息。面部情感的概念最早由达尔文在其著作《人类与动物的表情》中提出,表情被认为是天生的,是动物和人类在进化和生存过程中适应性动作的遗留物。Ekman和Friesen提出了六种基本情感:快乐、愤怒、悲伤、惊讶、恐惧和厌恶,并发现了特定面部肌肉模式与情感类型之间的普遍关联,这在跨文化中是一致的。

近年来,随着AI技术的进步,面部情感识别(FER)方法迅速发展,并在心理研究、医学诊断和智能人机交互等领域广泛应用。FER旨在通过分析面部表情来识别个体的情感状态。根据用于捕捉表情的数据类型,FER可以分为基于图像的静态FER(SFER)和基于视频的动态FER(DFER)。SFER主要解决姿态遮挡、跨域不一致性、标签不确定性、数据量不足和跨模态等挑战。研究人员还通过各种数据增强技术和正则化方法来缓解数据量不足和标签不确定性的问题。此外,通过跨模态信息融合,提高了表情识别的鲁棒性和准确性。

SFER关注瞬时表情,而DFER则关注面部表情的时间变化,以准确描述和理解情感转变的全过程。处理视频序列中的表情识别,DFER面临关键帧提取、时空特征提取、表情强度变化和跨模态融合的主要挑战。为捕捉动态表情信息,DFER模型不仅关注单帧中的静态特征,还结合了连续帧之间的时间关系。

面部表情研究分类

本文系统总结了面部表情识别(FER)研究的现状,并通过层次化分类体系,将现有的FER研究按输入类型(基于图像的SFER和基于视频的DFER)、任务挑战和网络结构进行组织,如图1所示。对于SFER,我们识别了八个关键挑战,如干扰、不确定性、复合标签、跨域适应性和跨模态问题,并总结了现有方法中常用的应对这些挑战的模型结构。对于DFER,我们还结合了七个额外的考虑因素,如关键帧提取、表情强度变化、静态与动态一致性、半监督学习和跨域对齐,并总结了当前方法的解决方案。

我们进一步分析并讨论了典型方法在基准数据集上的最新进展。此外,我们还在GitHub仓库中总结了基准数据集、评估指标、文献、代码、工作流程和相关讨论。为了构建这一分类体系,我们广泛回顾了2016年至2024年间的大量研究论文。图2展示了2016年至2024年间与基于图像的SFER和基于视频的DFER相关的出版物和引用趋势。从2019年开始,出版物和引用量显著增加,并持续增长到2023年,并预计在2024年继续上升。这反映了对SFER和DFER领域的兴趣和进展的日益增长。

file
图1:静态和动态情感的面部表情识别(FER)分类体系。我们提出了一个层次化分类体系,在系统框架内根据输入类型、任务挑战和网络结构对现有的FER模型进行分类,旨在提供当前FER研究全貌的全面概述。首先,我们将数据集、评估指标和工作流程(包括文献和代码)引入了一个公共的GitHub仓库中(第1、2和3节)。接着,基于图像的SFER(第4节)和基于视频的DFER(第5节)通过不同的学习策略和模型设计来克服不同的任务挑战。随后,我们分析了FER在基准数据集上的最新进展(第6节)。最后,我们讨论并总结了FER中的一些重要问题和潜在趋势,并强调了未来发展的方向(第7、8和9节)。

综述优势

file
S、D 和 WF 分别表示静态、动态和工作流程。
DI、3D、UA、CP、CD、LS 和 CM 分别表示静态、动态和工作流程。
SL、EI、MM、SD、SS 和 VL 分别表示采样、表情强度、多模态、静态到动态、半监督和视觉-语言。
HPC、PE 和 HCI 分别表示健康与心理咨询、个性化教育和人机交互。

贡献点

为了阐明面部表情识别(FER)的发展并激发未来研究,本综述涵盖了研究背景、数据集、通用工作流程、任务挑战、方法、性能评估、应用、伦理问题以及发展趋势。总的来说,本工作的主要贡献如下:

  1. 据我们所知,这是第一个将FER研究分为基于图像的静态FER(SFER)和基于视频的动态FER(DFER)的综合性综述,从模型导向的发展扩展到挑战导向的分类,并深入分析了实际环境中的挑战与解决方案。

  2. 我们系统回顾了SFER中涉及的八大主要挑战(如表情干扰、不确定性、跨域不一致性)和DFER中涉及的七大主要挑战(如关键帧提取、表情强度变化、跨模态对齐)的最新代表性方法。

  3. 我们总结、分析并讨论了FER在不同基准数据集上的最新进展和技术挑战,涵盖了实验室内FER、自然环境中的SFER和自然环境中的DFER的设置。

  4. 本综述总结了三个领域的应用和伦理问题,并讨论了发展趋势(如零样本FER和具身面部表情生成),旨在为FER系统提供新的视角和指导。

数据集

file

表情识别标准流程

file

深度学习网络架构

基于图像的静态面部表情识别(SFER)涉及从单张图像中提取特征,这些特征捕捉了与面部表情相关的复杂空间信息,如面部标志点及其几何结构和关系。接下来,我们将首先介绍SFER的一般架构,然后从挑战解决的角度详细说明SFER方法的具体设计,包括抗干扰的SFER、3D SFER、考虑不确定性的SFER、复合SFER、跨域SFER、弱监督SFER和跨模态SFER。
file
更多类型网络架构图参考论文 https://arxiv.org/pdf/2408.15777

通用的动态面部表情识别(DFER)方法主要通过提取时空特征来分析表情的动态变化。基于CNN-RNN的模型通常结合卷积神经网络(CNN)和递归神经网络(RNN),而基于Transformer的方法则利用深度注意力机制来处理更复杂的动态关系。
file
更多类型网络架构图参考论文 https://arxiv.org/pdf/2408.15777

发展趋势

面部动作单元(AUs)辅助的FER通过捕捉细微的肌肉动作,提升了表情识别的准确性和跨文化适应性,并增强了模型的可解释性和透明度。
零样本FER旨在识别未见过的情感类别,解决传统FER模型难以扩展到新情感类别的局限,利用视觉语言模型实现广泛的情感识别。
多模态情感识别通过整合面部表情、声音、手势等多种渠道,提供更全面的情感理解,减少单一模态系统的局限性,展现出更强的鲁棒性和准确性。
具身FER系统结合互动技术,实现对多视角和动态环境的实时情感检测和响应,增强了用户体验,并在复杂环境中展现出更高的适应性。
具身面部表情生成通过AIGC和马达驱动两种方式,使机器人能够更逼真地模仿人类表情,未来研究将专注于提升其真实性和表现力。

结论

面部表情识别(FER)在AI领域受到广泛关注,并在人与机器协作和具身智能方面展现出广阔的应用前景。本综述从多个角度对FER进行了深入审视,包括背景、数据集、通用工作流程、挑战导向的最新方法分类、近期进展、应用、伦理问题和新兴趋势。我们通过表格和图表系统地比较和总结了FER的数据集、任务挑战、方法和性能评估,提供了该领域最新进展的清晰概览。这一全面分析为不同学科的研究人员提供了重要参考,帮助他们快速理解该领域的挑战和进展,进而促进在通用FER系统开发方面的合作。

本文由博客一文多发平台 OpenWrite 发布!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/791183.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IDEA 莫名选中当前光标下的行

发现 IDEA 莫名选中当前行,具体来说,在行与行之间来回点,有时候会选中当前光标所在的行。 还以为是装了什么 plugin 导致的,最后发现是因为钉钉最近上了个 AI 助理的功能:像上图那样取消勾选就没出现这个问题了。

RAM和ROM详解

RAM和ROM详解 前言 RAM与ROM是计算机中常见的存储器类型,它们在数据存储和访问方面扮演着重要的角色。 RAM(Random Access Memory)是一种临时存储器,用于存储计算机正在运行的程序和数据。它具有快速的读写速度和随机访问的特点。 相比之下,ROM(Read-Only Memory)是一种…

相机成相之像距、物距、焦距

物距---被拍摄物体到凸透镜的距离。像距---成像平面到凸透镜的距离。焦点---通过凸透镜的、平行主光轴的光线,在主光轴上的会聚点。焦距---凸透镜中心到焦点的距离。焦距固定的是定焦镜头,焦距可以调节的是变焦镜头。焦距、物距、像距最基本的关系可以用高斯成像公式表示:因…

CSP2024考前集训记录

CSP2024考前集训记录 2024.9.2 上午 高一学长供的题。A题 开考5分钟想到枚举 \(a\) 后再枚举 \(d=\gcd(b,c)\) 后转化为求 \(\varphi(\frac{b+c}{d})\),直接上线性筛。 然后时间复杂度 \(O(n \sqrt n)\),瓶颈在枚举 \(b+c\) 的因数上。 于是后半个比赛全在想怎么优化,想到的…

光学公式(物象位置) 1/u+1/v=1/f

1.透镜成像 由图可以看出 1.物距>2倍焦距:倒立缩小的像2.物距=2倍焦距:倒立等大的像3.物距<2倍焦距 且 >1倍焦距:倒立放大的像4.物距=1倍焦距:不成像5.物距<1倍焦距:倒立放大虚像同时也可以看出成像越大,像距越近。 成实像时,物体和像在透镜两侧;成虚像时,…

南沙信奥老师解题:1352:【例4-13】奖金

​【题目描述】由于无敌的凡凡在2005年世界英俊帅气男总决选中胜出,Yali Company总经理Mr.Z心情好,决定给每位员工发奖金。公司决定以每个人本年在公司的贡献为标准来计算他们得到奖金的多少。 于是Mr.Z下令召开m方会谈。每位参加会谈的代表提出了自己的意见:“我认为员工a的…

MediatR实现高效信息传递,以.net8做demo演示

MediatR 是 .NET 下的一个实现消息传递的库,轻量级、简洁高效,用于实现进程内的消息传递机制。它基于中介者设计模式,支持请求/响应、命令、查询、通知和事件等多种消息传递模式。通过泛型支持,MediatR 可以智能地调度不同类型的消息,非常适合用于领域事件处理。 我们将定…

Redis组件介绍(五)

今天继续学习redis后面的知识。写在前面 今天继续学习redis后面的知识。 Redis 哨兵机制 哨兵 Sentinel 机制 Sentinel(哨兵)是 Redis 的高可用性解决方案。由一个或多个 Sentinel 实例组成的 Sentinel 系统可以监视任意多个主服务器,以及这些主服务器属下的所有从服务器。当…

人工智能的动漫虚拟世界(第二代)游戏、游戏源码、教程(三合一)

人工智能的动漫虚拟世界(第二代)游戏、游戏源码、教程(三合一)。我不想跟任何人说话,任何人不要跟我说话,我要安安静静的写。 2024年9月2日第二代制作完成,现在就比较象样了。 男主角换人了,黑头发的。 男女主角有个完善的家了,是小区场景中,一栋二层的小楼。 之前,…

JeecgBoot积木报表AviatorScript表达式注入漏洞复现

漏洞信息 影响组件:JimuReport积木报表 影响版本:v1.6.0 < JimuReport ≤ 1.7.8 漏洞名称:AviatorScript表达式注入漏洞 漏洞链接:积木报表软件存在AviatorScript代码注入RCE漏洞 Issue #2848 漏洞描述: 积木报表软件存在AviatorScript代码注入RCE漏洞 使用接口/jmrepo…

flash详解

flash详解 什么是Flash Flash全名叫做Flash Memory,从名字就能看出,是种数据存储设备,存储设备有很多类,Flash属于非易失性存储设备(Non-volatile Memory Device),与此相对应的是易失性存储设备(Volatile Memory Device)。关于什么是非易失性/易失性,从名字中就可以看出,…

Dll 可执行文件的编写与调用

一、Dll 可执行文件的编写 首先我们需要在 VS 创建一个动态链接库(DLL)项目,然后会生成如下代码: // dllmain.cpp : 定义 DLL 应用程序的入口点。 #include "pch.h"BOOL APIENTRY DllMain( HMODULE hModule, // 指向 Dll 模块的句柄DWORD ul_reason_for_call, /…