理解DALL-E 2-编程知识

理解DALL-E 2

1.简介

DALL-E 2的效果想必大家都已经很清楚了，效果是非常惊人的，该篇文章就是讲一下DALL-E 2的原理是什么。

2.方法

DALL-E 2的原理不难理解，前提是你知道CLIP。简单来说，CLIP是一个由文本和图片多模态训练的一个zero-shot模型。上图中的text encoder和img encoder是CLIP中的原模型没变，参数都没变，一个用来提取文本的特征，一个用来提取图像的特征，他们之间具有一定的映射关系的。

DALL-E 2的训练主要有两步，一个是训练prior先验模型，一个是训练decoder模型。prior先验模型的训练也比较粗暴，首先输入文本，通过编码器提取文本特征，然后通过先验网络预测对应的图像特征，用CLIP中image encoder输出的图像特征作为ground truth进行训练。decoder就是一个扩散模型。

2.1图像生成研究现状

第一个就是大名鼎鼎的GAN了。GAN是由一个生成器和一个判别器构成的，生成器通过输入一个高斯分布的随机采样，输出一个生成的图像。将生成的图像和真实的图像输入到判别器当中，输出一个二分类的结果来判断生成的图片是否能够以假乱真。扩散模型相较于GAN来说，由于GAN的目标函数是以假乱真的，所以生成的图像更加真实，但是GAN因为要同时训练两个网络，所以平衡不好控制，导致训练不稳定，一不小心就训练失败。第二是GAN的优化目标是尽可能真实，所以GAN的多样性不够好。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/224734.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！