人脸动作迁移——基于DaGAN深度感知的生成对抗网络操作对口型数字人

前言

口播视频生成旨在合成具有源图像和驱动视频的身份和姿势信息的协同人脸视频。现有方法主要依赖于从输入图像中学到的二维表示(如外观和运动),但密集的三维面部几何信息(如像素深度)对任务至关重要。这有助于生成准确的三维面部结构,同时在复杂背景中区分噪声。然而,获取密集的三维几何标注通常成本高昂,难以用于视频生成。

一、论文解读

1.论文简介

在DaGAN这篇论文中,作者首先介绍了一种自监督的几何学习方法,可从人脸视频中自动还原密集的三维几何(深度),无需昂贵的三维标注数据。基于获得的密集深度图,进一步提出了一种方法,用于估计稀疏的面部关键点,以捕捉人类头部的关键运动。此外,利用深度信息来学习3D感知的跨模态注意力,以指导运动场景的生成,从而改进源图像的表示。
这些创新构成了一个全新的深度感知生成对抗网络,该网络基于估计的稀疏面部关键点以及用于生成说话头像的姿势工作(DaGAN)。广泛的实验结果表明,DaGAN提出的方法能够生成高度逼真的人脸,并在未见过的人脸上取得显著的成功。
这项研究的贡献在于克服了密集三维几何标注的挑战,以及提供了一种更精确和逼真的口播视频生成方法,有望在虚拟角色制作和其他人工智能应用中产生积极影响。
在DaGAN中,作者主要目标是利用一个人的源图像和一个可能来自另一个人的驱动视频,以生成高质量的合成口播视频。这项任务在现实世界中有广泛的实际应用,包括角色扮演的视频游戏和虚拟主播领域。
最近几年,通过生成对抗网络(GANs),口播视频生成方面取得了显著的进展,不仅在质量上有所提高,而且在鲁棒性方面也取得了重要突破。研究中的一个成功方法是将身份和姿势信息从面部图像中解耦出来。这包括一些开创性工作,如模型化两张人脸图像之间的相对姿势,并将其用于生成密集的运动场,以扭曲源图像的特征图以驱动合成图像。此外,有研究专门学习姿势和身份的两个潜在代码,然后将它们输入到设计的生成器网络中,用于合成人脸视频。此外,一些数据增强策略也被研究,以更有效地分离姿势和身份信息。尽管这些方法在任务上表现出了很好的性能,但它们仍然过于依赖于从输入图像中学习更具代表性的2D外观和运动特征。然而,对于人脸视频生成来说,三维密集几何信息对任务至关重要,但目前的方法中很少涉及。

密集的三维几何信息(如像素级深度图)对口播视频生成有多重好处。首先,由于视频捕捉的是真实三维物理世界中移动的头像,三维几何学可以极大地提高对三维人脸结构的准确恢复能力。这对于生成高质量的人脸视频至关重要。其次,密集几何信息有助于模型更稳健地区分噪声背景信息,特别是在复杂背景条件下生成图像时。最后,密集的几何信息还对模型识别与表情相关的微小运动非常有用。然而,利用三维密集几何信息来提升生成性能面临一个严重挑战,即三维几何标注通常昂贵且难以获取,不适用于这项任务。

为了解决这一问题,本文首先提出了一种自监督学习方法,通过几何扭曲和光度一致性从训练人脸视频中自动恢复像素级深度图,而无需昂贵的三维几何标注。基于学习到的密集深度图,我们进一步提出了两种机制,以更有效地利用深度信息,从而生成更逼真的对话式视频。第一个机制是深度引导的面部关键点检测,通过结合从深度图中学到的几何信息和从图像中学到的外观信息,以提高面部关键点的准确性。第二个机制是跨模态注意力机制,用于指导运动场的学习。由于运动场可能包含来自杂乱背景的噪声信息,并且不能有效地捕捉与表情相关的微动,我们提出了学习深度感知的注意力机制,以对运动场进行像素级的三维几何约束,从而生成更精细的面部结构和运动细节。这些方法的综合应用有望显著提高口播视频生成的质量和逼真度。
在这里插入图片描述
上述所有贡献构成了作者提出的深度感知生成对抗网络(DaGAN),用于推进口播视频的生成。广泛地在两个不同的数据集,即VoxCeleb1和CelebV上进行了实验,对DaGAN模型进行了定性和定量的评估。实验结果表明,自监督深度学习策略能够准确地恢复源和目标人脸图像的深度图。与当前最先进的方法相比,DaGAN模型能够生成更高质量的合成人脸图像。具体而言,DaGAN的模型能够更好地保留面部细节,生成具有更准确表情和姿势的合成人脸。综上所述,DaGAN主要贡献包括以下三个方面:

  1. 创新性自监督学习方法:DaGAN首次引入了一种自监督学习方法,从人脸视频中准确地恢复密集的三维几何信息(深度图),并将其用于口播视频的生成。这种方法不需要昂贵的三维几何标注,为任务提供了一种高效且有效的解决方案。
  2. 深度感知生成对抗网络(DaGAN):DaGAN提出了一种新型的生成对抗网络,专门用于生成口播视频。DaGAN包括两个关键机制,即深度引导的面部关键点估计和跨模态注意力学习,这些机制有效地融入了深度信息,提高了生成网络的性能和准确性。
  3. 出色的生成性能:DaGAN的实验结果表明,DaGAN的方法能够准确地恢复人脸图像的深度信息,并在生成合成人脸图像方面表现出卓越性能。相对于当前最先进的技术,DaGAN模型能够更好地保留面部细节,生成具有更准确表情和姿势的合成人脸图像。

2.DaGAN相关工作

生成式对抗网络(GAN)是由Goodfellow等人首次提出的,用于在某些条件下生成高质量的图像。这一领域吸引了广泛的关注,研究者们在图像合成、文本到图像的转换以及图像绘制等任务中应用了GAN技术。在DaGAN的论文中,重点是利用GAN来引导口播视频生成,其中以无监督的方式学习了三维面部深度图,而无需事先具备深度信息的真实标签。

深度估计方面已经有许多研究,用于解决立体图像或视频序列的深度估计问题。其中一些方法采用了端到端的学习方法,通过视图合成作为监督信号,无监督地估计单眼视频序列的深度图。其他工作则处理了帧之间的遮挡问题,并使用自动掩码损失来处理静止像素,从而获得更好的深度估计结果。还有一些工作尝试学习相机的本征参数,以进行深度推断。然而,DaGAN的工作不同之处在于,DaGAN专注于以无监督的方式学习面部深度图,而这些深度图可以用于关键点检测,并在口播视频生成任务中引导模型生成更具细节和逼真度的人脸图像。

在口播视频生成领域,存在多种不同的驱动策略,包括图像驱动、地标驱动和音频驱动方法。图像驱动方法试图通过预测源图像和驱动图像的关键点来模拟局部运动,以排除脸部的身份信息。地标驱动方法使用面部地标来编码姿势信息,而音频驱动方法则从音频中提取姿势信息。与这些方法相比,DaGAN的工作以自监督的方式学习像素级深度图,为口播视频生成提供了有益的三维密集几何信息,从而使生成模型更准确地感知人脸的三维结构,并生成更细致的人脸细节。这一方法在口播视频生成任务中具有潜在的优势。

3.论文概述

DaGAN提出的方法包括一个生成器和一个判别器。DaGAN的生成器的核心网络结构在图2中描述,而判别器的实现直接受FOMM的启发。DaGAN的生成器网络可以分成三个部分:

  1. 自监督深度信息学习子网络Fd,从视频中两个连续帧自监督学习深度估计;然后固定Fd进行整个网络训练;
  2. 深度信息引导的稀疏关键点检测子网络Fkp;
  3. 特征扭曲模块利用关键点生成变化区域,其将扭曲源图特征已将外观信息与运动信息结合,得到扭曲特征Fw ;为确保模型关注细节及面部微表情,进一步学习关注深度信息的attention map,其精细化Fw得到Fg,用于生成图像;
    在这里插入图片描述

二、项目源码与部署

项目源码地址:https://github.com/harlanhong/CVPR2022-DaGAN

1. 环境安装

官方建议的环境:

Python >= 3.7 (Recommend to use Anaconda or Miniconda)
PyTorch >= 1.7
NVIDIA GPU + CUDA
Linux

我当前的环境是win10,GPU是N卡3060,使用cuda 11.8,cudnn 8.5,为了之后方便封装,使用conda来安装环境:

conda crate -n dagan python=3.10
activate dagan
conda install pytorch2.0.0 torchvision0.15.0 torchaudio==2.0.0 pytorch-cuda=11.8 -c pytorch -c nvidia

下载项目:

git clone https://github.com/harlanhong/CVPR2022-DaGAN.git
cd CVPR2022-DaGAN

安装依赖:

pip install -r requirements.txt
cd face-alignment
pip install -r requirements.txt
python setup.py install

2.模型下载

模型从OneDrive下载:
在这里插入图片描述

3.数据准备

要剪切使用来驱动人脸图像的视频,和准备要驱动的图像,我这里剪切的大小是256*256,然后:
然后运行:

python demo.py --config config/vox-adv-256.yaml --driving_video dataset/20.mp4  --source_image dataset/41.jpg --checkpoint model/DaGAN_vox_adv_256.pth.tar --relative --adapt_scale --kp_num 15 --generator DepthAwareGenerator

4.运行效果

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/128420.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

上门按摩小程序|同城上门按摩软件开发|上门按摩系统;

上门按摩小程序的开发具有许多优势,下面就给大家介绍下按摩小程序功能: 上门按摩小程序的优势 方便快捷:上门按摩小程序提供在线预约服务,用户可以通过手机随时随地预约按摩师上门服务,避免了传统预约方式的繁琐和不确定性。 个性…

【Nginx学习】—Nginx基本知识

【Nginx学习】—Nginx基本知识 一、什么是Nginx Nginx是一个高性能的HTTP和反向代理的web服务器,Nginx是一款轻量级的Web服务器/反向代理服务器处理高并发能力是十分强大的,并且支持热部署,启动简单,可以做到7*24不间断运行。 …

云安全之下一代防火墙介绍

防火墙的概念 下一代防火墙(Next Generation Firewall,NGFW)是一种可以全面应对应用层威胁的高性能防火墙。通过深入洞察网络流量中的用户、应用和内容,并借助全新的高性能单路径异构并行处理引擎,NGFW能够为用户提供…

jmeter利用自身代理录制脚本

在利用代理录制脚本时一定要安装java jdk,不然不能录制的。 没有安装过java jdk安装jmeter后打开时会提示安装jdk,但是mac系统中直接打开提示安装jdk页面后下载的java并不是jdk(windows中没有试验过,笔者所说的基本全部指的是在ma…

【VUE】element Table指定字段单元格样式及数据格式化

将列表中的指定字段的数据&#xff0c;根据字典值回显&#xff0c;并修改指定状态的显示样式 <el-tableref"table"height"500px":data"dataList"><template v-for"(item, index) in columns"><el-table-column:key&quo…

【Overload游戏引擎分析】从视图投影矩阵提取视锥体及overload对视锥体的封装

overoad代码中包含一段有意思的代码&#xff0c;可以从视图投影矩阵逆推出摄像机的视锥体&#xff0c;本文来分析一下原理 一、平面的方程 视锥体是用平面来表示的&#xff0c;所以先看看平面的数学表达。 平面方程可以由其法线N&#xff08;A, B, C&#xff09;和一个点Q(x0,…

机器学习:随机森林

集成学习 集成学习&#xff08;Ensemble Learning&#xff09;是一种机器学习方法&#xff0c;通过将多个基本学习算法的预测结果进行组合&#xff0c;以获得更好的预测性能。集成学习的基本思想是通过结合多个弱分类器或回归器的预测结果&#xff0c;来构建一个更强大的集成模…

Ubuntu 22.04 安装系统 手动分区 针对只有一块硬盘 lvm 单独分出/home

自动安装的信息 参考自动安装时产生的分区信息 rootyeqiang-MS-7B23:~# fdisk /dev/sdb -l Disk /dev/sdb&#xff1a;894.25 GiB&#xff0c;960197124096 字节&#xff0c;1875385008 个扇区 Disk model: INTEL SSDSC2KB96 单元&#xff1a;扇区 / 1 * 512 512 字节 扇区大…

设计模式 - 访问者模式

目录 一. 前言 二. 实现 三. 优缺点 一. 前言 访问者模式&#xff0c;即在不改变聚合对象内元素的前提下&#xff0c;为聚合对象内每个元素提供多种访问方式&#xff0c;即聚合对象内的每个元素都有多个访问者对象。访问者模式主要解决稳定的数据结构和易变元素的操作之间的…

分布式锁如何实现

分布式是现在的比较主流的技术&#xff0c;常常和微服务一起出现。那么对于多个实例之间&#xff0c;如何证分布式系统中多个进程或线程同步访问共享资源呢&#xff1f;我们其实一想到的就是锁&#xff0c;我们在java里边有 synchronized, 在python里有lock&#xff0c;但是这个…

【ESP32 + Edge Impulse平台】运行AI算法模拟多传感器数据融合实现异常检测

本篇博文主要以ESP32+MQ Sensor 气体传感器为例,通过连接 Edge Impulse 平台,实现数据的实时采集和训练,进而实现在嵌入式设备上部署 ML 机器学习。本教程介绍如何使用 Edge Impulse 和机器学习来实现ESP32 异常检测系统,系统使用一个机器学习模型,检测气体何时出现异常。…

websocket拦截

python实现websocket拦截 前言一、拦截的优缺点优点缺点二、实现方法1.环境配置2.代码三、总结现在的直播间都是走的websocket通信,想要获取websocket通信的内容就需要使用websocket拦截,大多数是使用中间人代理进行拦截,这里将会使用更简单的方式进行拦截。 前言 开发者工…