【论文系列】DDIM ---DDPM上的优化

news/2024/11/15 15:47:49/文章来源:https://www.cnblogs.com/myleaf/p/18533821

What

DDIM是啥?

DDIM(Denoising Diffusion Implicit Models) 是一种扩散模型的变体,旨在加速图像生成过程并保持生成质量。它是在DDPM(Denoising Diffusion Probabilistic Models)的基础上发展出来的,提供了一种更高效的去噪采样过程,减少了采样所需的步骤数量。

Why

DDIM提出了能干啥?

DDPM介绍了经典扩散模型DDPM的原理和实现,对于扩散模型来说,一个最大的缺点是需要设置较长的扩散步数才能得到好的效果,这导致了生成样本的速度较慢,比如扩散步数为1000的话,那么生成一个样本就要模型推理1000次。

这就很慢很慢很慢。。。。。

但DDIM可以大大缩短这个过程

What

那它是怎么做到的啊?

1、DDIM不再限制过程必须是一个马尔可夫链,
2、DDIM的另外是一个特点是从一个随机噪音生成样本的过程是一个确定的过程(中间没有加入随机噪音)。

下面我们来着重讲讲这两句话。。

首先来回顾一下DDPM的加噪过程:
image

扩散过程一个很重要的特征就是可以被直接表示成用\(x_0\)对任意的\(x_t\)进行采样:
image

DDPM的反向去噪过程也可以定义为一个马尔可夫链:
image
image
然后我们就可以得到上面的这个过程图。

这时我们猛然发现(细说猛然发现):
image
这个后验概率是一个可获取的高斯分布,它的方差是一个定值,它的均值却需要依赖于\(x_0\)\(x_t\)
image
这说明了什么?
这说明了我们只要知道了原始图像和完全加噪后的图像,就可以知道去噪的噪声是什么样子!!!
根据原始论文,我们得到了如下的Objective,也就是DDPM的优化目标:
image
image
往下推推推。。。。
我们发现这个损失函数,就仅仅依赖于边缘分布\(q(x_t|x_0)\),它不直接作用在联合分布\(q(x_{1:T}|x_0)\),这说明了什么?
这说明了\(DDPM\)这个隐变量模型可以有很多推理分布来选择,只要推理分布满足边缘分布条件(扩散过程的特性)即可,而且这些推理过程并不一定要是马尔卡夫链。
DDIM的论文这么定义的:
image
其中上式子还要满足如下这些:
image

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/829370.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解决zip解压之后中文乱码问题

1、打开windows 设置 语言和区域2、打开管理语言设置3、取消勾选这个Beta,然后重启即可

VMware ESXi 6.7 U3u (ESXi670-202403001) 下载

VMware ESXi 6.7 U3u (ESXi670-202403001) 下载VMware ESXi 6.7 U3u (ESXi670-202403001) 下载 VMware ESXi 6 Extend Support Release 请访问原文链接:https://sysin.org/blog/vmware-esxi-6/ 查看最新版。原创作品,转载请保留出处。 作者主页:sysin.org产品简介 VMware ES…

VMware vCenter Server 6.7U3w 发布下载 - ESXi 集中管理软件

VMware vCenter Server 6.7U3w 发布下载 - ESXi 集中管理软件VMware vCenter Server 6.7U3w (安全更新) - ESXi 集中管理软件 集中式控制 vSphere 环境 请访问原文链接:https://sysin.org/blog/vmware-vcenter-6/ 查看最新版。原创作品,转载请保留出处。 作者主页:sysin.org…

H264码流的RTP封装

H264、RTP、视频编码一、RTP协议头: 1.RTP头定义:RTP协议头一般固定为12个字段,在每一个RTP数据包中都存在。各字段的含义如下: version(V):2bits:标识RTP的版本,当前协议版本固定为2. padding(P):1bits:填充位。默认0,如果为1,则在该报文的末尾填充一个或多个额外的…

批量计算遥感影像NDVI:Python代码

本文介绍基于Python中的gdal模块,批量基于大量多波段遥感影像文件,计算其每1景图像各自的NDVI数值,并将多景结果依次保存为栅格文件的方法~本文介绍基于Python中的gdal模块,批量基于大量多波段遥感影像文件,计算其每1景图像各自的NDVI数值,并将多景结果依次保存为栅格文件…

线程池创建方式

线程池创建方式一、方式一:通过ThreadPoolExecutor构造函数来创建(推荐) 方式二:通过 Executor 框架的工具类 Executors 来创建。Executors工具类提供的创建线程池的方法如下图所示: 可以看出,通过Executors工具类可以创建多种类型的线程池,包括:1. FixedThreadPo…

HTML基础练习

注意:全卷满分140+45分,时间40分钟。 全开卷,并允许联网查询。 凡是标注“不定项”的,每个选项均分总分,每错选或漏选一个均仅扣除该项得分。例如8分4选项题,答案为AD,选ABD得6分,A得6分,AB得4分。 所有题目均为人工阅卷,不需要特别遵守格式规范,均按照答案酌情给分…

将URDF模型文件导入Issac_Gym系列【1】

1 在solidworks中导出URDF文件 1 这里按照古月居老师的要求进行基本的配置 https://www.bilibili.com/video/BV1Tx411o7rH/?vd_source=fcddcf87e97b17fd530dc88db643aab3 关于catkin_ws这种ROS的工作环境的配置,具体可以参考我的这篇博客 https://www.cnblogs.com/myleaf/p/1…

SpringMVC 学习笔记

概述 SpringMVC 中的 MVC 即模型-视图-控制器,该框架围绕一个 DispatcherServlet 改计而成,DispatcherServlet 会把请求分发给各个处理器,并支持可配置的处理器映射和视图渲染等功能 SpringMVC 的工作流程如下所示:客户端发起 HTTP 请求:客户端将请求提交到 DispatcherSer…

VMware vSphere 6.7 Update 3w 下载

VMware vSphere 6.7 Update 3w 下载VMware vSphere 6.7 Update 3w 下载 ESXi 6.7 U3 & vCenter Server 6.7 U3, Dell, HPE, LENOVO, Inspur Custom Image 请访问原文链接:https://sysin.org/blog/vmware-vsphere-6/ 查看最新版。原创作品,转载请保留出处。 作者主页:sys…

HER304-ASEMI轴向高效恢复二极管HER304

HER304-ASEMI轴向高效恢复二极管HER304编辑:ll HER304-ASEMI轴向高效恢复二极管HER304 型号:HER304 品牌:ASEMI 封装:DO-27 特性:轴向高效恢复二极管 正向电流:3A 反向耐压:300V 恢复时间:35ns 引脚数量:2 芯片个数:2 芯片尺寸:MIL 浪涌电流:125A 漏电流:10ua 工作…

Blender 常用修改器

修改器的好处是,它是一个非破坏性的建模方式,方便修改和撤销表面细分修改器 将网格的面分割成更小的面,使其看起来更光滑,但它的顶点并不会受到影响实体修改器 获取任意网格的表面,然后为之添加深度,使其变厚,偏移量可以决定它朝哪边偏移倒角修改器 宽度是坡口形成的两条…