Towards Robust Blind Face Restoration with Codebook Lookup Transformer(NeurIPS 2022) | Codeformer

Towards Robust Blind Face Restoration with Codebook Lookup Transformer(NeurIPS 2022)

这篇论文试图解决的是盲目面部恢复(blind face restoration)问题,这是一个高度不确定的任务,通常需要辅助指导来改善从低质量(LQ)输入到高质量(HQ)输出的映射,或者补充输入中丢失的高质量细节。具体来说,论文关注以下几个关键问题:

  • 如何在不知道具体退化过程的情况下(即盲目恢复),从严重退化的输入图像中恢复出高质量的面部图像。

  • 如何减少恢复映射的不确定性和模糊性,特别是在输入图像质量较低时。

  • 如何在保持高保真度的同时,生成具有丰富视觉细节的高质量面部图像。

为了解决这些问题,论文提出了一种基于Transformer的预测网络,名为CodeFormer,它利用在一个小的代理空间中学习的离散码本(codebook)先验,将盲目面部恢复任务转化为码预测任务。这种方法旨在通过全局建模低质量面部的组成和上下文,发现与目标面部紧密近似的自然面部,即使输入图像严重退化。此外,为了增强对不同退化类型的适应性,论文还提出了一个可控的特征转换模块,允许在保真度和质量之间进行灵活的权衡。

codeformer_2024-09-04_

本文的主要方法如下:

  1. 在高质量的数据集上训练一个VQVAE,得到一个具有清晰视觉细节的Decoder、CodeBook和Encoder
  2. 在低质量数据集上微调Encoder,并且在Encoder到CodeBook直接插入一个Transformer,用作LQ的Embdedding到HQ的Embedding的映射,因为空间是离散的,相当于一个分类预测任务了.注意transformer和Encoder是一起训练的.
  3. 一个CFT的short-cut来控制quality和fidelity之间的权衡.为什么这个CFT能控制,因为从encoder可通过short-cut传入的Embedding是能包含更多的信息,因此保真度(fidelity)更好,但是embedding的从LQ提取的,因此quality会变差.

上图给出了为什么使用VQVQE,因为VAE输出的Embedding是连续的,包含的潜空间太大,而VQVAE可以看作聚类,从LQ->HQ的映射,为了保证图像质量,我们希望这个映射空间较小,从而更可能生成高质量的图像.,更有利于模型学习.

codeformer_2024-09-04_

CodeFormer也可以用于图像编辑之类的.


  1. 做超分可以借鉴一下上述的pipeline
  2. 对于VQVAE、连续空间和离散空间的理解:连续空间包含更多信息,但是也会引入噪声;离散空间通过缩小映射空间从而过滤一下噪声.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/792330.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[MySQL]B+树能存储多少数据

MySQL中一个B+树能存储多少数据MySQL中InnoDB页的大小默认是16k。也可以自己进行设置。(计算机在存储数据的时候,最小存储单元是扇区,一个扇区的大小是 512 字节,而文件系统(例如 XFS/EXT4)最小单元是块,一个块的大小是 4KB。 InnoDB 引擎存储数据的时候,是以页为单位的…

基于 GoFrame 框架的 Go 项目打包成镜像,并上传至 Harbor 镜像库

本文通过将一个简单的 gf 项目推送到 harbor,简单介绍了整个流程和过程中用到的命令。〇、前言 在云服务时代最流行的部署方式就是容器部署,这也是最推荐的部署方式。 对于 GoFrame 框架就不多介绍了,直接来初始化一个 demo,备用。 // 初始化一个项目:gf-demo gf init gf-…

ChatOn安卓版(智能AI聊天机器人) v1.48.435-476 高级版

概述 ChatOn 构建于ChatGPT和GPT-4o之上,为用户提供市场上最优秀的中文AI聊天机器人。AI聊天机器人能够达到一个全新水平的仿人类互动:当你为某一场正式会议准备演讲,苦思动人的措辞,或寻求写作方面的帮助时,这款智能机器人和AI助手都会统统帮你搞定。 软件功能 1、AI 写…

JPEG格式研究——(2)JPEG文件格式

JPEG文件除了图像数据之外,还保存了与图片相关的各种信息,这些信息通过不同类型的TAG存储在文件中。 TAG JPEG通过TAG标记压缩书记之外的信息。所有的TAG都包含一个TAG类型,TAG类型大小为两个字节,位于一个TAG的最前面。TAG类型的第一个字节一定为0xFF 以下是部分常见的TAG…

【python】一篇搞懂多解释器与虚拟环境

一.同一PC上,python同时支持多个版本的解释器共存1.1:安装不同版本python解释器(参考百度资料)# python安装后,解释器目录介绍 C:\python39- python.exe [解释器]-Scripts- pip.exe- pip3.exe- pip3.9.exe- Lib- re.py- random.py 内置模块- site-packages- requests …

LeeCode-104. 二叉树的最大深度

要求给定一个二叉树 root ,返回其最大深度。 二叉树的 最大深度 是指从根节点到最远叶子节点的最长路径上的节点数。 如下图所示的二叉树最大深度为5.解题思路与94题类似,采用递归调用遍历子节点。在基本结构中,节点的最大深度等于根深度(1)加上左右较大深度,左右较大的深…

# LeeCode-104. 二叉树的最大深度

要求给定一个二叉树 root ,返回其最大深度。 二叉树的 最大深度 是指从根节点到最远叶子节点的最长路径上的节点数。 如下图所示的二叉树最大深度为5.解题思路与94题类似,采用递归调用遍历子节点。在基本结构中,节点的最大深度等于根深度(1)加上左右较大深度,左右较大的深…

遥感技术在环境监测中的应用:揭秘地球变化的天眼

当我们仰望星空,探索宇宙的奥秘时,别忘了脚下的这片土地同样蕴藏着无数未解之谜。遥感技术,这个听起来似乎遥不可及的名字,其实正是我们透视地球环境变化的“天眼”。今天将带大家一探遥感技术如何在环境监测中大显身手,帮助我们更精准地监测和评估这个星球的每一次呼吸与…

c#程序反编译

工具ilspy https://nchc.dl.sourceforge.net/project/ilspy.mirror/v9.0-preview2/ILSpy_binaries_9.0.0.7660-preview2-arm64.zip?viasf=1 visualstudio反编译方法将需要反编译的程序拖入ilspy 选择vs版本导出项目 右键项目→保存代码vs打开项目文件即可添加库方法反编译库,…

LeeCode-94. 二叉树的中序遍历

基本概念二叉树二叉树的结构如上图所示,由一系列左-中-右节点组成的树状数据结构,其基本结构如下所示,由一个中间节点向左右分叉成两个节点,故称二叉树。中序遍历看二叉树基本的结构左-中-右三个节点,中间为Root,左边为Left,右边为Right。按顺序排列的话有C(3,2)=6种,其…

C#自定义控件—仪表盘

C#用户控件之仪表盘 如何让温度、湿度、压力等有量程的监控值如仪表盘(DashBoard)一样显示?思路(GDI绘图): 定义属性:(仪表盘的半径、颜色、间隙;刻度圆的半径、颜色、字体;指针的颜色、占比;文本的字体、占比;) 绘制图形:(半圆、刻度、指针、中心、文本)定义属…