基于扩散模型的图像编辑:首篇综述

AIGC 大模型最火热的任务之一——基于 Diffusion Model 的图像编辑(editing)领域的首篇综述。长达 26 页,涵盖 297 篇文献!本文全面研究图像编辑前沿方法,并根据技术路线精炼地划分为 3 个大类、14 个子类,通过表格列明每个方法的类型、条件、可执行任务等信息。此外,本文提出了一个全新 benchmark 以及 LMM Score 指标来对代表性方法进行实验评估,为研究者提供了便捷的学习参考工具。强烈推荐 AIGC 大模型研究者或爱好者阅读,紧跟热点。

  • 作者:Yi Huang, Jiancheng Huang, Yifan Liu, Mingfu Yan, Jiaxi Lv, Jianzhuang Liu, Wei Xiong, He Zhang, Liangliang Cao, Shifeng Chen

  • 单位: 中科院、Adobe公司、苹果公司(曹亮亮等)、南科大

  • 链接:https://arxiv.org/abs/2402.17525

  • https://github.com/SiatMMLab/Awesome-Diffusion-Model-Based-Image-Editing-Methods

摘要

去噪扩散模型已成为各种图像生成和编辑任务的有力工具,有助于以无条件或输入条件的方式合成视觉内容。这些模型背后的核心理念是学习如何逆转逐渐向图像中添加噪声的过程,从而从复杂的分布中生成高质量的样本。

在这份调查报告中,我们详尽概述了使用扩散模型进行图像编辑的现有方法,涵盖了该领域的理论和实践方面。我们从学习策略、用户输入条件和可完成的一系列具体编辑任务等多个角度对这些作品进行了深入分析和分类。此外,我们还特别关注图像的inpainting和outpainting,并探讨了早期的传统上下文驱动方法和当前的多模态条件方法,对其方法论进行了全面分析。

为了进一步评估文本引导图像编辑算法的性能,我们提出了一个系统基准 EditEval,其特点是采用了创新指标 LMM Score。最后,我们讨论了当前的局限性,并展望了未来研究的一些潜在方向。

附带的资源库发布在:https://github.com/SiatMMLab/Awesome-Diffusion-Model-Based-Image-Editing-Methods。

统计图

基于扩散模型的图像编辑中研究出版物的统计概述。上图:学习策略。中:输入条件。下图:编辑任务。

从多角度对基于扩散模型的图像编辑方法进行了全面地分类。这些方法是根据训练、微调和免训练进行颜色渲染的。输入条件包括文本、类别、参考图像,分割图、姿态、蒙版、布局、草图、拖动点和音频。打勾表示可以做的任务。

训练大类的分类属性图以及框架图

 

 比较两种有代表性的CLIP导引方法:DiffusionCLIP 和 Asyrp 的框架图。样本图像来自CelebA数据集上的Asyrp

 指令图像编辑方法的通用框架。示例图像来自InstructPix2Pix、InstructAny2Pix和MagicBrush。

微调大类的分类属性图以及框架图

 

 使用不同微调组件的微调框架。样本图像来自Custom-Edit。

免训练大类的分类属性图以及框架图

 

免训练方法的通用框架,其中指出了不同部分中描述的修改。样本图片来自LEDITS++。

Benchmark

 LMM Score与用户研究的皮尔逊相关系数。

 LMM Score/CLIPScore与用户研究的皮尔逊相关系数比较。

对7种选定的编辑类型进行直观比较。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/504255.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

十四、Qt主机信息与网络编程

一、主机信息 1、主机信息接口 QHostInfo:获取主机名称和IP地址QNetWorkInterface:获取主机的所有网络接口,包括子网掩码和广播地址等 (1)使用 项目添加模块QT network2、实现程序 (1&#xff0…

Linux系统加固:限制用户对资源的使用禁止IP源路由更改主机解析地址的顺序设置umask值

Linux系统加固:限制用户对资源的使用&禁止IP源路由&更改主机解析地址的顺序&设置umask值 1.1 限制用户对资源的使用1.2 禁止IP源路由1.3 更改主机解析地址的顺序1.4 禁止ip路由转发1.5 设置umask值 💖The Begin💖点点关注&#x…

虚拟化介绍

虚拟化理论介绍 什么是虚拟化: 虚拟化(Virtualization)技术最早出现在 20 世纪 60 年代的 IBM 大型机系统。 在70年代的 System 370 系列中逐渐流行起来,这些机器通过一种叫虚拟机监控器(Virtual Machine Monitor,V…

浅谈 Linux进程回收、wait、waitpid函数

文章目录 前言进程回收wait 函数进程回收 相关的宏函数介绍waitpid 函数 前言 本文介绍 进程回收 的概念、相关宏函数、wait 函数 以及 waitpid 函数的使用方式。 进程回收 一个进程终止时会关闭所有文件描述符,释放在用户空间分配的内存,但它的 PCB …

RocketMQ安装

mq服务端安装配置启动把windows做成服务 mq管理界面安装配置启动 mq服务端 安装 RocketMQ下载地址 配置 ROCKETMQ_HOME D:\google-d\rocketmq-all-5.2.0-bin-release启动 # bin目录cmd输入 start mqnamesrv.cmd把windows做成服务 http://t.csdnimg.cn/qd2RD mq管理界面 …

CentOS7设置虚拟机语言为中文

1.查看本地安装的语言 locale -a 是一个Linux命令,用于列出系统中可用的所有区域设置(locales)它包含了各种语言和地区的不同设置。 打开终端(右键open terminal)输入 locale -a 查看本地安装的语言: 其中z…

深入理解与应用工厂方法模式

文章目录 一、模式概述**二、适用场景****三、模式原理与实现****四、采用工厂方法模式的原因****五、优缺点分析****六、与抽象工厂模式的比较**总结 一、模式概述 ​ 工厂方法模式是一种经典的设计模式,它遵循面向对象的设计原则,特别是“开闭原则”&…

C语言-指针(上)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、pandas是什么?二、使用步骤 1.引入库2.读入数据总结 前言 本篇文章将为大家介绍C语言中的核心内容-指针,指针在C语言的中知识内容比…

详解 JavaScript 中的数组

详解 JavaScript 中的数组 创建数组 注:在JS中的数组不要求元素的类型,元素类型可以一样,也可以不一样 1.使用 new 关键字创建 let array new Array()2.使用字面量方式创建(常用) let array1 [1,2,3,"4"]获取数组元素 使用下…

Python 教学平台,支持“多班教学”的课程授课方式|ModelWhale 版本更新

龙行龘龘、前程朤朤,ModelWhale 新一轮的版本更新,期待为大家带来更优质的使用体验。 本次更新中,ModelWhale 主要进行了以下功能迭代: 新增 课程(包括课件、作业、算力)按班级管理(团队版✓ …

Linux笔记-1

概述 简介 Linux是现在服务器上最常用的操作系统(OS - Operating system) - 所谓的操作系统本质上也是一个软件,是一个可以运行其他软件的容器如果一台服务器,没有安装操作系统,此时称之为裸机。裸机可以使用,在使用的时候需要使…

TCP与UDP基础

思维导图&#xff1a; TCP&#xff1a; 服务器 #include<myhead.h> #define SER_IP "192.168.252.163" #define SER_PORT 6666 int main(int argc, const char *argv[]) {//&#xff11;、创建用于监听的套接字int sfd-1;sfdsocket(AF_INET,SOCK_STREAM,0);/…