Diffusion Model
- 视频
Training
- 第5行是唯一需要解释的地方, x 0 x_{0} x0 是干净的图片, ϵ θ \epsilon _{\theta } ϵθ是前面说的Noise Predictor,它的输入包括加噪声之后的图像(红色框)以及时序 t t t , ϵ \epsilon ϵ 是训练的target也就是添加的噪声。它其实与前面我们提到的一步步加噪的过程不一样,而是一次就可以了。
Inference
最大似然估计
- 倒数第二行增加了与θ无关的一项,使得能将式子合并;KL散度,用来衡量两个概率分布之间的差异,KL越大,分布差异越大。
前向加噪推导
- 以此类推,从 x 0 x_{0} x0