DALL-E 2 论文代码李沐讲DALLE 2 方法 上图中,虚线的上半部分是CLIP的训练过程,虚线的下半部分描述的DALL-E 2的训练过程。 CLIP训练 在训练时,将文本以及对应的图像分别输入到CLIP的文本编码器和图像编码器,然后得到输出的文本特征和图像特征,这两个特征就是一个正样本,该文本特征与其他图像生成的图像特征就是负样本,通过对比学习,训练文本编码器和图像编码器,将图像和文本合并为一个多模态的特征空间。CLIP模型训练结束,文本编码器和图像编码器就的参数就被冻结。在DALL-E 2的训练过程中,CLIP模型的参数处于冻结状态,不进行