Identity-Preserving Talking Face Generation with Landmark and Appearance Priors

主要问题:1)模型如何生成具有与输入音频一致的面部运动(特别是嘴部和下颌运动)的视频?2)模型如何在保留身份信息的同时生成视觉上逼真的帧?
摘要:
从音频生成说话脸部视频引起了广泛的研究兴趣。一些特定个人的方法可以生成生动的视频,但需要使用目标说话者的视频进行训练或微调。现有的通用方法在生成逼真和与嘴唇同步的视频同时保留身份信息方面存在困难。为了解决这个问题,我们提出了一个两阶段的框架,包括从音频到关键点的生成和从关键点到视频的渲染过程。首先,我们设计了一种基于Transformer的全新关键点生成器,用于从音频中推断出嘴唇和下颌的关键点。说话者面部的先前关键点特征被用来使生成的关键点与说话者的面部轮廓相吻合。然后,我们构建了一个视频渲染模型,将生成的关键点转化为面部图像。在这个阶段,我们从目标脸的下半部和静态参考图像中提取先前的外观信息,有助于生成逼真且保持身份信息的视觉内容。为了更有效地探索静态参考图像的先前信息,我们根据运动场将静态参考图像与目标脸的姿态和表情进行对齐。此外,我们重新使用音频特征以确保生成的面部图像与音频很好地同步。

  1. Introduction:
    音频驱动的说话脸部视频生成在许多应用中具有价值,如视觉配音,数字助理和动画电影。基于训练范例和数据需求,说话脸部生成方法通常可以分为特定个人和通用个人两种类型。特定个人的方法可以生成照片般逼真的说话脸部视频,但需要使用目标说话者的视频进行重新训练或微调,而这在某些真实场景中可能无法实现。因此,在这个领域中,学习生成通用个人的说话脸部视频是一个更为重要且具有挑战性的问题。这个主题也吸引了很多研究关注。在这篇论文中,我们专注于通过在音频数据和多个参考图像的指导下完成说话者原始视频的下半部分来解决通用个人说话脸部视频生成的问题。主要挑战包括两个方面:1)模型如何生成具有面部运动的视频,特别是与输入音频一致的口部和下颌运动?2)模型如何在保留身份信息的同时生成视觉逼真的帧?为了解决第一个问题,许多方法在生成通用个人说话脸部视频时利用面部关键点作为中间表示。
    由于输入的音频和中间的关键点没有固有的视觉内容信息,因此在保留身份信息的同时,从音频和中间关键点产生逼真的面部视频是非常具有挑战性的。

    我们使用来自上半部脸的姿势先验关键点和来自静态面部图像提取的参考关键点作为音频到关键点生成器的额外输入。对两种关键的的使用有助于防止生成器产生偏离说话者面部轮廓的结果。然后,我们基于多头自注意力模块构建了生成器的网络架构。与简单的串联或加法操作相比,我们的设计在捕获语音单元和关键点之间的关系方面更有优势 。此外,多个静态人脸图像被用来提取先前的外观信息,以生成真实且保留身份的人脸帧。
    我们使用基于运动场的对齐模块和面部图像翻译模块建立了关键点到视频渲染网络。对齐模块:将静态参考图像与由关键点生成器生成的关键点结果提供的面部姿势和表情进行对齐。具体实现方法:首先,针对每个静态参考图像,推断出该图像的运动场,即描述图像中不同区域运动情况的信息。然后,利用推断得到的运动场,对该图像以及图像的特征进行变换或扭曲,使其与由关键点生成器生成的面部姿势和表情一致。这样可以确保最终生成的面部图像与静态参考图像在姿势和表情上保持一致,产生逼真的结果。

    面部图像翻译模块通过整合来自推断的关键点、被遮挡的原始图像、对齐的参考图像和音频的多源特征来生成最终的面部图像。

方法:
给定音频序列和初始输入视频,我们的目标是通过以逐帧方式完善输入视频的下半部分遮挡的脸部,生成一个与音频同步的说话人面部视频。我们的方法概述如图2所示。
在这里插入图片描述
**音频到关键点生成阶段(Audio-To-Landmark Generation):左侧橙色部分。基于Transformer的关键点生成器以音频、参考关键点和姿势先验关键点为输入,预测嘴唇和下颌的关键点,然后与姿势先验关键点结合构建目标草图。为简单起见,省略了位置编码和模态编码。
关键点到视频渲染阶段(Landmark-To-Video Rendering):右侧蓝色部分。根据目标草图,对齐模块以多个参考图像及其草图作为输入,获取运动场,将参考图像及其特征扭曲到目标头部姿势和表情。借助音频特征、扭曲后的图像和特征,翻译模块将连接了下半部遮蔽目标脸的目标草图转化为最终的面部图像。
Overview of our framework. It can be divided into two stages: (1) Audio-To-Landmark Generation (left orange part). The
transformer-base landmark generator takes the audio, reference landmarks, and pose prior landmarks as input to predict the landmarks
of lip and jaw, which are then combined with pose prior landmarks to construct the target sketches. Positional encodings and modality
encodings are omitted for simplicity. (2) Landmark-To-Video Rendering (right blue part). According to target sketches, the alignment
module takes multiple reference images and their sketches as input to obtain the motion fields, which warp the reference images and their
features to target head pose and expression. With the assistance of audio features and warped images and features, the translation module
translates the target sketches concatenated with the lower-half masked target face to the resulted face image.

**

我们的框架由两个阶段组成。第一阶段将音频信号和说话者面部的先验关键点作为输入以预测嘴唇和下巴的界标。第二阶段由对齐模块和翻译模块组成。基于运动场,对齐模块将参考图像及其特征与目标脸部姿势和表情进行配准。翻译模块在音频特征的指导下,以及来自被遮挡的目标脸部和已配准的参考图像的先验外观信息的指导下,从关键点合成完整的面部图像。基于运动场,对齐模块将参考图像及其特征与目标脸部姿势和表情进行配准。翻译模块在音频特征的指导下,以及来自被遮挡的目标脸部和已配准的参考图像的先前外观信息的指导下,从关键点合成完整的面部图像。

3.1. Audio-To-Landmark Generation
在这个阶段,网络的目标是一次生成 T = 5 T = 5 T=5 个相邻帧的嘴唇 { l ^ l t ∈ R 2 × n l } t = 1 T \{\hat{l}_{lt} \in \mathbb{R}^{2 \times nl}\}_{t=1}^T {

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/140474.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JIRA 在 2024 年完全停止服务器版本支持

在服务器上的开源许可证版本已经要过期了,想去更新下。 发现,JIRA 的所有服务器版本的支持马上就要结束了。 这就意味着,如果你部署的服务器版本的 JIRA 的话,你将没有办法对服务器进行更新。 貌似,必须使用 JIRA 提供…

Linux高性能服务器编程 学习笔记 第十六章 服务器调制、调试和测试

Linux平台的一个优秀特性是内核微调,即我们可以通过修改文件的方式来调整内核参数。 服务器开发过程中,可能会碰到意想不到的错误,一种调试方法是用tcpdump抓包,但这种方法主要用于分析程序的输入和输出,对于服务器的…

【全国大学生loT设计竞赛】安谋科技灵动赛题国二分享:MagicDog—仿生狗四足机器人

本文参加极术社区和灵动微电子组织的2022全国大学生物联网设计作品征集活动。 “全国大学生物联网设计竞赛”是以促进国内物联网相关专业建设和人才培养为目标,以物联网技术为核心,激发物联网相关专业学生的创造、创新、创业活力,推动高校创新…

网络库OKHTTP(2)面试题

序、慢慢来才是最快的方法。 背景 OkHttp 是一套处理 HTTP 网络请求的依赖库,由 Square 公司设计研发并开源,目前可以在 Java 和 Kotlin 中使用。对于 Android App 来说,OkHttp 现在几乎已经占据了所有的网络请求操作。 OKHttp源码官网 问1…

SOAR安全事件编排自动化响应-安全运营实战

SOAR是最近几年安全市场上最火热的词汇之一。各个安全产商都先后推出了相应的产品,但大部分都用得不是很理想。SOAR不同与传统的安全设备,买来后实施部署就完事,SOAR是一个安全运营系统,是实现安全运营过程中人、工具、流程的有效…

uml知识点学习

https://zhuanlan.zhihu.com/p/659911315https://zhuanlan.zhihu.com/p/659911315软件工程分析设计图库目录 - 知乎一、结构化绘图1. 结构化——数据流图Chilan Yuk:1. 结构化——数据流图2. 结构化——数据字典Chilan Yuk:2. 结构化——数据字典3. 结构…

Unity插件-Cinemachine

1.Virtual Camera 相机控制 创建Virtual Camera:鼠标右键(或点击上方的GameObject)-> Cinemachine -> Virtual Camera,创建完Virtual Camera后会发现场景原相机上会自动添加一个CinemachineBrain的组件 CinemachineBrain是…

景联文科技语音数据标注:AUTO-AVSR模型和数据助力视听语音识别

ASR、VSR和AV-ASR的性能提高很大程度上归功于更大的模型和训练数据集的使用。 更大的模型具有更多的参数和更强大的表示能力,能够捕获到更多的语言特征和上下文信息,从而提高识别准确性;更大的训练集也能带来更好的性能,更多的数据…

分类预测 | MATLAB实现WOA-LSTM鲸鱼算法优化长短期记忆网络数据分类预测

分类预测 | MATLAB实现WOA-LSTM鲸鱼算法优化长短期记忆网络数据分类预测 目录 分类预测 | MATLAB实现WOA-LSTM鲸鱼算法优化长短期记忆网络数据分类预测分类效果基本描述模型描述程序设计参考资料 分类效果 基本描述 1.MATLAB实现WOA-LSTM鲸鱼算法优化长短期记忆网络数据分类预测…

小型内衣裤洗衣机哪个牌子好?内衣洗衣机测评

随着内衣洗衣机的流行,很多小伙伴在纠结该不该入手一款内衣洗衣机,专门来洗一些贴身衣物,答案是非常有必要的,因为我们现在市面上的大型洗衣机只能做清洁,无法对我们的贴身衣物进行一个高强度的清洁,而小小…

PyQt 问题记录

1.现成的组件不一定线程安全,(包括且不限于数据的修改竞争,和一些组件的崩溃 ) 对于PyQt 的线程使用,可能还需要更谨慎些 保存逻辑 QuestionBox("保存/Save")def Save(self):okFlagFalseerrFlagFalseWriteCmd{}for it in self.Mode…

【C++】415.字符串相加

题目描述: 给定两个字符串形式的非负整数 num1 和num2 ,计算它们的和并同样以字符串形式返回。 你不能使用任何內建的用于处理大整数的库(比如 BigInteger),也不能直接将输入的字符串转换为整数形式。 示例1&#x…