[论文阅读] High-Resolution Image Synthesis with Latent Diffusion Models

news/2025/1/11 15:00:59/文章来源:https://www.cnblogs.com/lichunlei/p/18521616

写在前面

原文:https://arxiv.org/abs/2112.10752
Github:https://github.com/CompVis/latent-diffusion?tab=readme-ov-file
参考:https://stable-diffusion-art.com/how-stable-diffusion-work/
关键词:stable diffusion,LDMs
阅读理由:对DM高消耗的优化,解决速度问题。看一下优化思路,优化原理,实验是怎么做的,对以后的研究有什么启发or帮助
前置知识:DDPM、自编码器、潜在空间、交叉注意力、条件控制扩散模型



速览

速览

1.与扩散模型(DM)直接操作像素空间不同,LDMs是将图片压缩到一个“潜空间”(Latnet Space)并进行取样去噪的,这种方法可以节省大量计算,使运行速度更快

2.设计了一种基于注意力机制的通用条件化方法,使多模态训练成为可能



思路和方法

思路:引入一个明确的压缩学习阶段与生成学习阶段

方法:
过程


如图所示,LDMs主要分为三步:

一.感知图像压缩 Perceptual Image Compression

感知压缩模型是基于先前的工作,由一个自编码器(Auto-Encoder)组成。它是Pixel Space与Latent Space之间的转换工具。
转换到Latent Space空间有两个优点:

  1. 通过离开高维图像空间,我们获得了计算上更高效的DM,因为采样是在低维空间中进行的。
  2. latent空间的特征语义信息更强,便于和其它模态(例如,文本或者初始图像)的特征融合。

同时需要注意:类似于VAE,为了避免AE压缩出的Latent Space过于发散,提出了正则化方法,通常会把Latent Space的特征分布用KL散度对齐到标准正态空间。

为什么这是合理的?
为什么VAE可以压缩一张图片到非常小的一个潜空间而不损失信息呢?这是因为:自然图片并非是随机的,它们有很高的规律性。例如,一张脸上,鼻子、脸颊和嘴巴之间有特定的空间关系。一只狗有4只腿并且有特定的形状。

换句话说,高维的图片是人为的。自然图像可以轻松地压缩到较小的潜空间中,而不会丢失任何信息。这在机器学习中被称为流形假设。

二.隐式扩散模型 Latent Diffusion Models

与DDPM的过程类似,前向与反向扩散都是在潜空间里完成的,只不过Zt是Latent Feature,Z0是AE的Encoder推理出的原始特征,ZT是纯噪声特征。所以在训练时,不再是生成一张噪点图,而是在潜空间里生成一个随机张量(Tensor),并且在给图片每一步增加噪点时,也不再是给图像增加噪点,而是给图片在潜空间里的张量增加潜噪点。
这里,LDM的噪声估计器是一个UNet,用来预测每一步去噪所需噪声。由于正向过程是固定的,因此在训练过程中可以从 E 中高效地获得 zt,并且可以从 p(z) 的样本中通过 D 进行单次解码以生成图像空间。

三.条件机制 Conditioning Mechanisms

与其它类型的生成模型一样,扩散模型DM也可以对条件分布p(z|y)进行建模拟合,可以通过条件去噪自编码器ϵθ(zt,t,y)来实现,并通过条件输入如文本、语义图、图像-图像转换任务等控制图像的生成。

本文方法是使用交叉注意力机制增强底层UNet结构。为了处理不同模态的输入,引入了一个模态相关的编码器τθ,输入条件,获得输入条件的特征,通过交叉注意力机制加权到diffusion的噪声估计器UNet中间特征上

实验

有待后续补充。。。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/825684.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024 XCPC 哈尔滨 Chengdu 游记

电科你题出得好啊!CCPC Day -1 ​ 第一次坐飞机,起飞后世界瞬间变得好小,白云在我面前流过,河上的船一动不动. 随后出现的积云构成了冰川,剩余稀薄的云雾掩盖下面的城市,成为一片蓝色的海. 视线的尽头,我看到了被深蓝和浅蓝夹着的地平线. 今晚的月亮圆得像人造光源,…

vs code常见的查找快捷键大全

VS Code 提供了多种方法来查找和导航文件,包括快速打开文件、文件资源管理器、全局搜索、查找符号、查找文件中的文本、查找并替换、文件导航和使用命令面板。通过熟练使用这些方法,你可以提高开发效率,更快地找到和打开所需的文件。本文原文来自:vs code常见的查找快捷键大…

Vue全家桶–Vuex状态管理

什么是状态管理复杂的状态管理Vuex的状态管理

DBMS

StorageSrv DBMS ​ 在storagesrv上完成MariaDB数据库的安装,添加数据库root用户密码为000000 ​ 安装MariaDB 数据库服务器组件; ​ MariaDB数据库管理员信息:User: root/ Password: 000000; ​ 安装MariaDB WEB管理面板“phpMyAdmin”,通过apache 进行发布安装phpMyAdmin…

关于Copilot出现:You don`t have access to Github Copilot .....的问题解决方案

前面如何如何配置,以及如何如何上传学生证资料等我这里不赘述 bad endinghappy ending出现这个界面这个问题就是set_up不是很完全,设置一下就行disable改为enable等 这样再回去IDE,就可以正常使用了

什么是 Servlet

参考:Servlet 是用来做什么的?Servlet 技术的特点、ChatGPT简介 Servlet 是使用 Java 语言编写的运行在服务器端的程序。狭义的 Servlet 是指 Java 语言中的一个接口,广义的 Servlet 是指任何实现了这个 Servlet 接口的类,一般情况下,人们将 Servlet 理解为后者。Servlet …

2024 暑假多校 做题记录

可以打一辈子 ACM 吗?代码链接 HDU7445 鸡爪 可以发现容易构造出 \(\lfloor\frac{n}{3}\rfloor\) 的上界。 对于字典序,只要考虑 \(n\) 是 \(3\) 的倍数的情形(对于 \(n\) 不是 \(3\) 的倍数的情形,只要将余出边的左端点设为 \(1\) 即可)。 因为要求字典序最小,自然考虑节…

猿人学web端爬虫攻防大赛赛题第16题——js逆向 - window蜜罐

题目网址:https://match.yuanrenxue.cn/match/16 解题步骤看触发数据包。明显m是经过特殊处理的,需要知道它的加密逻辑。看Initiator模块的window.request。m和t的赋值就在上面,打断点。先分析t。 r.t = p_s = Date[e(496)](new Date)[e(517)]() 将其中跟e相关的进行还原后,…

OBV量能指标的实战用法

OBV能量潮又称为平衡交易量,是由美国投资分析家葛兰碧在1981年创立的,它的理论基础是“能量是因,股价是果”。能量潮是将成交量数量化,制成趋势线,配合股价趋势线,从价格的变动及成交量的增减关系,推测市场气氛。其主要理论基础是市场价格的变化必须有成交量的配合,股价…

操作系统实验

《操作系统实验》课程实验报告目录实验一 进 程 调 度 31.实验目的: 32.实验内容: 33.设计实现: 44.实验结果 175. 实验过程中出现的问题及解决办法 19实验二 存储管理 201.实验目的: 202.实验内容: 203.设计实现: 214.实验结果 235.实验过程中出现的问题及解决办法 26实…

智慧国土空间规划方法探索与实践应用

在数字化时代背景下,国土空间规划正经历着一场深刻的变革。智慧国土空间规划作为一种新兴的规划理念和方法,其核心在于利用现代信息技术,提高规划的科学性、精准性和动态适应性。本文将探讨智慧国土空间规划的方法探索与实践应用。1. 智慧国土空间规划的概念智慧国土空间规划…