生成式 AI - Diffusion 模型的数学原理(3)

来自 论文《 Denoising Diffusion Probabilistic Model》(DDPM)
论文链接: https://arxiv.org/abs/2006.11239
Hung-yi Lee 课件整理

文章目录

        • 一、图像生成模型本质上的共同目标
        • 二、最大似然估计
        • 三、和VAE的关联
        • 四、概率计算

一、图像生成模型本质上的共同目标

图像生成模型共同的特征是,在输入端有一个简单的分布,从里面sample出一个向量出来,然后把这个向量输入到神经网络里面,这个神经网络我们用G来表示,它的输入是x,输出是z,这个x就是一张图片,我们每次从这个简单的分布里面sample一个向量出来,通过神经网络把它变成一张图片,图中标记了四个图片。这些图片会组成一个十分复杂的分布,右边绿色的形状表示。而我们期待的是找到一个神经网络,使得形成的分布和真实图片形成的分布(蓝色形状表示)越接近越好。

通常我们的任务还需要一段输入的文字描述,我们称之为Condition,生成的图片是根据condition产生的图片,但是它仍然是一个分布,目标一样是让产生的分布和真实的分布越接近越好,所以有没有这个Condition,原理上没有本质的差别,下面的讲解暂时不考虑Condition,这样表达式更简洁,便于理解。

二、最大似然估计
我们期望绿色的分布和蓝色的分布越接近越好,但是怎么衡量呢,多数的深度学习模型都采用最大似然估计。

假设神经网络的参数用 θ \theta θ表示,通过这个神经网络产生的分布我们用 P θ P_{\theta } Pθ 来表示,真正的分布我们用 P d a t a P_{data } Pdata 来表示。
首先我们从 P θ P_{\theta } Pθ 里面sample出 x 1 x_{1} x1 x m x_{m} xm

我们通过输入 x i x^{i} xi来计算 P θ ( x i ) P_{\theta }(x^{i}) Pθxi是十分复杂的,复杂的难以想象。但是没有关系,我们先假设可以做到,可以算出产生这张图片的概率。
我们需要找一个 θ \theta θ使得 P θ ( x i ) P_{\theta }(x^{i}) Pθxi最大,那么目标函数如右边公式所示。
我们需要学习到的使得 P θ ( x i ) P_{\theta }(x^{i}) Pθxi最大的 θ \theta θ就是 θ ∗ \theta^* θ

接着前面的讲解,
第二行,我们对 P θ ( x i ) P_{\theta }(x^{i}) Pθxi做取对数操作,对结果没有影响,为了方便计算。
第三行,对数计算,把求积转换为求和,这个式子近似于 从 P d a t a P_{data } Pdata中取出 x x x, 然后计算 P θ ( x ) P_{\theta }(x) Pθx取对数,在计算 x x x P d a t a P_{data } Pdata中取出的期望。
第四行,这个式子等同于对 x x x做积分,这里没有好解释的,右边减去的部分有点令人匪夷所思,这一项不会影响我们的结果,对 θ \theta θ不产生影响,只和data本身有关,但是加入这一项有一个好处,可以进行后续的合并。
第五行,合并后得到这一步,这一项正好是 P θ P_{\theta } Pθ P d a t a P_{data} Pdata的KL Divergence。

KL Divergence越大表示这两个分布的差异越大。这样我们可以看到最大似然估计和最小化KL Divergence是等价的。

三、和VAE的关联

这里之所以讲VAE是为了说明其实它和Diffusion model非常相似,之前也提到过,很多在VAE里面推导过的东西在Diffusion model里面是不需要再推导的。

按理说我们要定义 P θ ( x ) P_{\theta }(x) Pθx应该写成右边第一个式子,
P ( z ) P(z) Pz是从原始分布计算出来的,很容易得到,但是后面的部分怎么办,如果我们按照第二行的式子进行处理的话这样算出来的概率几乎都是0了。

实际上在VAE里面是这样假设的,假设输入一个z输出是G(z),G(z)实际上是高斯分布的均值,这样我们就可以用右边的式子近似代替。

通常我们需要最小化的是 P ( x ) P(x) Px的下界。
第一行,这里的 q ( z ∣ x ) q(z\mid x ) qzx是什么并不重要;
第二行,分解展开 P ( x ) P(x) Px;然后在分子分母同时乘以 q ( z ∣ x ) q(z\mid x ) qzx
第三行,log相乘拆成相加,第二项是 q ( z ∣ x ) q(z\mid x ) qzx P ( z ∣ x ) P(z\mid x ) Pzx的KL divergence,而且这一项一定是正数;
第四行,这个积分形式可以写成期望的形式,这就是这个概率的下界,即下限。我们要最大化的就是这个下限。
在VAE里面 q ( z ∣ x ) q(z\mid x ) qzx实际上就是Encode。

四、概率计算

现在来看看 P θ ( x ) P_{\theta }(x) Pθx是怎么计算的。
生成图片的过程如图所示,可以把Denoise的过程想成是产生一个高斯分布的均值,如果 x t − 1 x_{t-1} xt1和产生的分布很接近,那么这个概率就很大,反之很小。
x 0 x_{0} x0被产生的概率就可以用下面这个很长的式子表示,从 x 1 x_{1} x1 x T x_{T} xT对所有的可能做积分。

DDMP和VAE的下限其实是一样的,推导的过程也是一模一样。
唯一的不同就是把一些符号换了一下,
x x x换成了 x 0 x_{0} x0
q ( z ∣ x ) q(z\mid x) qzx换成了 q ( x 1 : x T ∣ x 0 ) q(x_{1} :x_{T} \mid x_{0} ) qx1xTx0
P ( x ∣ z ) P(x\mid z) Pxz换成了 P ( x 0 : x T ) P(x_{0} :x_{T} ) Px0xT
VAE里面的Encoder和DDPM里面的forward process也是对应的。

最下面给出了 q ( x 1 : x T ∣ x 0 ) q(x_{1} :x_{T} \mid x_{0} ) qx1xTx0的计算公式。
下一篇博客会进一步解释这个公式具体的计算方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/475146.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

蓝牙耳机哪个品牌质量最好最耐用?蓝牙耳机排行榜前十名分享

​在通勤途中,许多人喜欢通过听音乐来打发时间。如今,无线蓝牙耳机已经取代了有线耳机,让人们摆脱了线缆的束缚。然而,面对市场上众多的蓝牙耳机,许多人仍然不知道该如何选择。我整理出了几款还不错的蓝牙耳机&#xf…

【HarmonyOS】鸿蒙开发之Image组件——第3.1章

图片的放缩类型 Cover(默认值):保持图片宽高比进行放缩显示,使得图片完全显示在显示边界外。 Image("https://seopic.699pic.com/photo/50110/8335.jpg_wh1200.jpg").width(100).margin({right:10}).objectFit(ImageFi…

78MXX——线性稳压器电路,用于各种电视机、收录机、电子仪器、设备的稳压电源上,内置短路保护电路,热保护电路

78MXX系列是用于各种电视机、收录机、电子仪器、设备的稳压电源电路。包括78M05、78M06、 78M08、 78M09、 78M10、 78M12、 78M15。 主要特点: ● 极限输出电流: 0.5A ● 固定输出电压: 5V、6V、8V、9V、10V、 12V、 15V ● 内置短路保护电路 ● 内置热保护电路 ●…

今日Arxiv最热大模型论文:大语言模型真的理解上下文了吗?新研究揭示惊人发现

探索大型语言模型的上下文理解能力 在自然语言处理( Natural Language Processing,NLP)领域,理解上下文是把握人类语言的关键。近年来,大语言模型(LLMs)在展示对语言的理解方面取得了令人瞩目的成就。然而…

Instagram 账号被封如何申诉?ins账号解封经验分享

不知道各位在玩转海外社媒平台时有没有遇到过Instagram账号异常的情况,比如会出现账号受限、帖子发不出去、账号被封号等情况?Instagram账号如果被封不用马上弃用,我们可以先尝试一下申诉,看看能不能把账号解封。所以今天将会出一篇Instagra…

涌现出来的模拟能力#OpenAI视频生成大模型构建世界模拟器的可行性

Q:Sora出来后,普通人应该怎么办? "Sora的到来带来了机遇和挑战。普通人关注创意和技术,探索表达想法的新方式。🌟🔬他们制作高质量视频,平衡工作与生活,并拥抱行业变革。梦想成…

动态代理IP如何选择?

IP地址是由IP协议所提供的一种统一的地址格式,通过为每一个网络和每一台主机分配逻辑地址的方式来屏蔽物理地址的差异。根据IP地址的分配方式,IP可以分为动态IP与静态IP两种。对于大部分用户而言,日常使用的IP地址均为动态IP地址。从代理IP的…

Unity3D DrawCall和openGL、光栅化等有何内在联系详解

前言 在Unity3D中,DrawCall是一个重要的概念,它与OpenGL、光栅化等技术有着密切的内在联系。本文将详细解释DrawCall的概念,并给出相关技术的详细解释和代码实现。 对惹,这里有一个游戏开发交流小组,希望大家可以点击…

Android下SF合成流程重学习之GPU合成

Android下SF合成流程重学习之GPU合成 引言 SurfaceFlinger中的图层选择GPU合成(CLIENT合成方式)时,会把待合成的图层Layers通过renderengine(SkiaGLRenderEngine)绘制到一块GraphicBuffer中,然后把这块GraphicBuffer图形缓存通过调用setClientTarget传递…

Mysql 权限与安全管理

0 引言 MySQL是一个多用户数据库,具有功能强大的访问控制系统,可以为不同用户指定允许的权限。MySQL用户可以分为普通用户和root用户。root用户是超级管理员,拥有所有权限,包括创建用户、删除用户和修改用户的密码等管理权限&…

⭐北邮复试刷题429. N 叉树的层序遍历(按层入队出队BFS)(力扣每日一题)

429. N 叉树的层序遍历 给定一个 N 叉树,返回其节点值的层序遍历。(即从左到右,逐层遍历)。 树的序列化输入是用层序遍历,每组子节点都由 null 值分隔(参见示例)。 示例 1:输入&a…

票房25亿!《热辣滚烫》的创造性模仿,普通人赚钱的落地方法

最近很火的电影《热辣滚烫》包含了我们很多普通人做点小事儿,赚点小钱非常落地的方法,叫做创造性模仿。 很多人说《热辣滚烫》是翻拍的日本《百元之恋》,知道这个有什么用?就证明贾玲不是那么优秀吗?对我们普通人想赚…