1.简介
DALL-E 2的效果想必大家都已经很清楚了,效果是非常惊人的,该篇文章就是讲一下DALL-E 2的原理是什么。
2.方法
DALL-E 2的原理不难理解,前提是你知道CLIP。简单来说,CLIP是一个由文本和图片多模态训练的一个zero-shot模型。上图中的text encoder和img encoder是CLIP中的原模型没变,参数都没变,一个用来提取文本的特征,一个用来提取图像的特征,他们之间具有一定的映射关系的。
DALL-E 2的训练主要有两步,一个是训练prior先验模型,一个是训练decoder模型。prior先验模型的训练也比较粗暴,首先输入文本,通过编码器提取文本特征,然后通过先验网络预测对应的图像特征,用CLIP中image encoder输出的图像特征作为ground truth进行训练。decoder就是一个扩散模型。
2.1图像生成研究现状
- 第一个就是大名鼎鼎的GAN了。GAN是由一个生成器和一个判别器构成的,生成器通过输入一个高斯分布的随机采样,输出一个生成的图像。将生成的图像和真实的图像输入到判别器当中,输出一个二分类的结果来判断生成的图片是否能够以假乱真。扩散模型相较于GAN来说,由于GAN的目标函数是以假乱真的,所以生成的图像更加真实,但是GAN因为要同时训练两个网络,所以平衡不好控制,导致训练不稳定,一不小心就训练失败。第二是GAN的优化目标是尽可能真实,所以GAN的多样性不够好。