Diffusion与Tranformer结合的代表性文章
一、DiT
题目: Scalable Diffusion Models with Transformers
机构:UC Berkeley,纽约大学
论文: https://arxiv.org/pdf/2212.09748.pdf
代码:https://github.com/facebookresearch/DiT
任务: 图像生成
特点: 将Diffusion中常常用到的UNet替换为transformer结构,并分析模型复杂度以及生成质量的关系,相比于UNet在效率上的优势,以及模型架构的可扩展性
前置相关工作:LDM,DDPM,transformer
1、动机
Transformer结构在自然语言处理以及视觉等领域取得了广泛应用,但是在pixel-level的生成任务上,往往和自回归方法相结合,因此本文将Transformer架构与Diffsuion生成方法相结合,提出基于transformer的扩散模型(Diffusion Transformers,简称DiTs),并分析这些模型在不同复杂度下的可扩展性和性能。具体来说,论文探讨了以下几个关键问题:
- Transformer rather than UNet:论文研究了将Transformer架构作为扩散模型(特别是去噪扩散概率模型,DDPMs)的骨干网络(backbone)的可行性,以替代传统的基于U-Net的架构。
- 模型复杂度与生成质量的关系:通过构建和评估DiT模型的设计空间,论文分析了模型复杂度(以GFLOPS为度量)与生成样本质量(以Fréchet Inception Distance,FID为度量)之间的关系。
- DiT模型的可扩展性:论文展示了通过增加Transformer的深度、宽度或输入令牌数量(即增加GFLOPS)可以显著降低FID,从而提高生成图像的质量。
- DiT模型在特定任务上的性能:论文在ImageNet数据集上训练DiT模型,并在512×512和256×256分辨率的条件下,与现有的扩散模型进行性能比较,展示了DiT模型在这些任务上的优越性。
- DiT模型的计算效率:论文还探讨了DiT模型相对于其他基于U-Net的扩散模型(如ADM和LDM)在计算效率方面的表现。
总的来说,这篇论文的目标是推动扩散模型领域的发展,通过引入Transformer架构来提高图像生成任务的性能,并探索这种新型模型的可扩展性和效率。
2、相关工作
A: 这篇论文提到了多个与扩散模型(Diffusion Models)、Transformers、以及图像生成相关的研究工作。以下是一些关键的相关研究:
- 扩散模型(Diffusion Models):
Ho et al. [19]:DDPM首次引入了U-Net作为扩散模型的骨干网络
Dhariwal and Nichol [9]:guided diffusion(Diffusion Models Beat GANs on Image Synthesis)对U-Net架构进行了消融研究,并提出了改进的扩散模型,但是整体的UNet大框架没有改变
Karras et al. [20]:提出了级联扩散模型(Cascaded Diffusion Models),用于高保真图像生成。
- Transformers:
Vaswani et al. [60]:提出了原始的Transformer模型,这是后续所有基于Transformer的研究的基础。
Dosovitskiy et al. [10]:提出了Vision Transformer(ViT),将Transformer架构应用于图像识别任务,同时也验证了相比于resetnet这样的卷积结构,ViT更具备可扩展性,当然这与本文的标题Scaling也是一致的。
Radford et al. [3]:展示了语言模型(如GPT-3)在少样本学习中的潜力。
- 图像生成:
Goodfellow et al. [12]:提出了生成对抗网络(GANs),这是图像生成领域的一个重要里程碑。
Brock et al. [2]:BigGAN在大规模GAN训练中取得了高保真度的自然图像合成。
Ramesh et al. [47]:LDM提出了基于CLIP潜在空间的层次化文本条件图像生成模型。
- 其他相关研究:
Nichol and Dhariwal [9, 36]:分析了U-Net架构类的可扩展性和GFLOP属性。
Isola et al. [23]:提出了条件对抗网络(Conditional Adversarial Networks),用于图像到图像的翻译。
Kingma and Welling [30]:提出了变分自编码器(VAE),这是生成模型的另一种形式。
这些研究为理解扩散模型、Transformers以及图像生成领域的最新进展提供了基础,并为DiT模型的设计和评估提供了理论支持。
3、论文方法
A: 论文通过以下几个关键步骤来解决将Transformer架构应用于扩散模型的问题,并分析其可扩展性和性能:
-
DiT架构设计:首先,论文提出了一种新的扩散模型架构,称为Diffusion Transformers(DiTs)。这种架构基于Vision Transformers(ViTs),将图像的潜在表示(latent patches)作为输入,并通过一系列Transformer块进行处理。
-
条件化策略:为了处理额外的条件信息(如噪声时间步、类别标签等),论文探索了不同的Transformer块设计,包括in-context conditioning、cross-attention、adaptive layer norm(adaLN)和adaLN-Zero。这些设计允许模型在不改变标准ViT块的情况下,有效地利用条件信息。
-
模型复杂度与性能分析:论文通过构建DiT模型的设计空间,包括不同的模型大小(如DiT-S、DiT-B、DiT-L和DiT-XL)和输入令牌的数量(通过改变patchify层的patch size),来研究模型复杂度(以GFLOPS为度量)与样本质量(以FID为度量)之间的关系。
-
实验验证:在ImageNet数据集上,论文训练了不同配置的DiT模型,并与现有的扩散模型进行了性能比较。实验结果表明,DiT模型在不同分辨率下都能达到或超过现有模型的性能,尤其是在256×256分辨率下,DiT-XL/2模型实现了2.27的FID,这是一个新的最佳性能。
-
计算效率:论文还分析了DiT模型的计算效率,发现DiT模型相对于基于U-Net的模型(如ADM和LDM)在训练和生成过程中更加高效。
-
可扩展性研究:通过增加模型的GFLOPS(无论是通过增加Transformer的深度/宽度还是增加输入令牌的数量),论文展示了DiT模型在样本质量上的显著提升,这表明DiT模型具有良好的可扩展性。
通过这些步骤,论文不仅成功地将Transformer架构应用于扩散模型,而且还展示了这种新型模型在图像生成任务中的潜力和可扩展性。
4、论文实验
A: 论文进行了一系列的实验来探索和验证DiT模型的性能和可扩展性。以下是主要的实验内容:
-
DiT块设计实验:
论文训练了四种不同设计的DiT-XL/2模型,每种模型使用不同的块设计:in-context conditioning、cross-attention、adaptive layer norm (adaLN) 和 adaLN-Zero。这些实验旨在比较不同条件化策略对模型性能的影响。 -
模型大小和patch size的缩放实验:
论文训练了12个DiT模型,覆盖了不同的模型配置(S、B、L、XL)和patch sizes(8、4、2)。这些实验旨在研究模型大小(通过增加Transformer层数和隐藏层大小)和输入令牌数量(通过减小patch size)对FID的影响。
DiT模型与现有扩散模型的比较:
在ImageNet数据集上,论文将DiT模型与现有的扩散模型(如ADM、LDM等)进行了性能比较。这包括在256×256和512×512分辨率下的FID、sFID、Inception Score、Precision和Recall等指标。 -
计算效率分析:
论文分析了DiT模型在训练过程中的计算效率,包括训练损失曲线和训练迭代次数。此外,还比较了DiT模型与基于U-Net的模型在采样计算量和模型计算量方面的差异。 -
VAE解码器的消融研究:
为了评估VAE解码器对DiT模型性能的影响,论文在不同的预训练VAE解码器(如ft-MSE和ft-EMA)之间进行了比较。 -
DiT模型的可视化:
论文展示了DiT模型生成的图像样本,以及在不同分类器自由引导(classifier-free guidance)尺度下的样本质量。 -
DiT模型的长期训练:
对于DiT-XL/2模型,论文进行了长达7百万步的训练,并观察了FID随训练步骤的变化。
这些实验不仅验证了DiT模型在图像生成任务中的有效性,还揭示了模型复杂度与生成图像质量之间的强相关性,以及DiT模型相对于传统U-Net模型在计算效率方面的优势。
5、Future work
尽管论文已经取得了显著的成果,但仍有许多潜在的研究方向可以进一步探索:
更大的模型规模: 论文展示了DiT模型在增加计算量(GFLOPS)时性能的提升。未来的研究可以继续扩大模型规模,探索更大的模型是否能够进一步提高图像生成的质量。
不同的条件化策略:虽然论文已经尝试了几种条件化策略,但可能还有其他有效的方法可以进一步改善DiT模型的性能。例如,可以尝试结合多种策略或开发新的条件化机制。
跨领域应用: DiT模型在图像生成领域表现出色,但其架构的通用性意味着它可能适用于其他领域,如文本到图像生成、视频生成等。研究DiT在这些领域的应用是一个有趣的方向。
训练效率和稳定性: 尽管DiT模型在性能上取得了突破,但训练大型模型仍然是一个挑战。研究如何提高训练效率和稳定性,例如通过改进优化算法或引入正则化技术,是值得探索的。
模型解释性和可解释性: 理解DiT模型的内部工作机制,以及如何解释生成的图像,对于提高模型的透明度和可信度至关重要。研究模型解释性可以帮助用户更好地理解和信任生成的图像。
数据集和任务的多样性: 论文主要在ImageNet数据集上进行了实验。将DiT模型应用于更多样化的数据集和任务,如医学成像、艺术风格迁移等,可以进一步验证其泛化能力。
模型压缩和部署: 为了在资源受限的环境中部署DiT模型,研究模型压缩和加速技术,如知识蒸馏、量化和剪枝,是必要的。
与人类创造力的结合: 探索如何将DiT模型与人类的创造力相结合,例如通过交互式生成或辅助设计工具,可以开辟新的应用场景。
这些方向不仅有助于推动DiT模型本身的发展,还可能为整个生成模型领域带来新的突破。
6、总结
A: 这篇论文介绍了一种新的基于Transformer架构的扩散模型,称为Diffusion Transformers(DiTs),用于图像生成任务。以下是论文的主要内容概述:
背景与动机:论文指出,尽管Transformer在自然语言处理和视觉领域取得了巨大成功,但在图像生成模型中的应用相对较少。特别是,扩散模型(如Denoising Diffusion Probabilistic Models, DDPMs)通常采用基于U-Net的架构。作者旨在探索将Transformer架构引入扩散模型的潜力。
DiT架构:论文提出了DiT架构,它遵循Vision Transformers(ViTs)的最佳实践,将图像的潜在表示(latent patches)作为输入,并通过一系列Transformer块进行处理。DiT架构包括patchify层、DiT块(包含不同的条件化策略)、模型层和Transformer解码器。
实验设计:作者在ImageNet数据集上训练了不同配置的DiT模型,并与现有的扩散模型进行了比较。实验包括分析模型复杂度(GFLOPS)与样本质量(FID)之间的关系,以及DiT模型在不同分辨率下的性能。
主要发现:
DiT模型在增加计算量(GFLOPS)时,样本质量(FID)显著提高。
在256×256分辨率的ImageNet数据集上,DiT-XL/2模型达到了2.27的FID,这是当时的最佳性能。
DiT模型在计算效率上优于基于U-Net的模型,尤其是在训练和生成过程中。
可扩展性分析:论文展示了DiT模型具有良好的可扩展性,通过增加模型大小或输入令牌数量,可以进一步提高生成图像的质量。
未来工作:论文提出了几个潜在的研究方向,包括进一步扩大模型规模、探索新的条件化策略、将DiT应用于其他领域、提高训练效率、增强模型解释性以及模型压缩和部署。
二、PIXART-α
题目: PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis
机构:华为
论文:https://arxiv.org/abs/2310.00426
代码:https://pixart-alpha.github.io/
这篇论文介绍了PIXART-α,这是一个基于Transformer的文本到图像(T2I)扩散模型,旨在解决现有T2I模型训练成本高和环境影响大的问题。以下是论文的主要内容总结:
1、问题背景:
当前先进的T2I模型,如Imagen、Stable Diffusion等,需要巨大的计算资源进行训练,这不仅增加了成本,还导致了显著的CO2排放。
2、PIXART-α的核心设计:
训练策略分解:
- 将复杂的文本到图像生成任务分解为三个子任务:学习自然图像的像素分布、学习文本与图像的对齐以及提高图像的审美质量。
- 在第一阶段,使用低成本的类别条件模型初始化T2I模型,显著降低学习成本。
- 在第二阶段,通过在信息密度丰富的文本-图像对数据上进行预训练,然后对具有更高审美质量的数据进行微调,提高训练效率。
高效的T2I Transformer: 在Diffusion Transformer(DiT)的基础上,引入交叉注意力模块以注入文本条件,并简化计算密集的类别条件分支。提出了一种重参数化技术,允许调整后的文本到图像模型直接加载原始类别条件模型的参数,从而利用从ImageNet学到的关于自然图像分布的先验知识,为T2I Transformer提供合理的初始化并加速其训练。
高信息量数据:利用大型视觉-语言模型自动标记密集的伪标题,以提高文本-图像对齐学习。使用LLaVA(Liu et al., 2023)在SAM(Kirillov et al., 2023)数据集上生成描述,SAM数据集由于其丰富多样的对象集合,是创建高信息密度文本-图像对的理想资源。
通过这些设计,PIXART-α在保持与现有最先进图像生成器竞争力的同时,显著减少了训练成本和CO2排放。例如,PIXART-α的训练时间仅为Stable Diffusion v1.5的12%,训练成本仅为其1%,同时减少了90%的CO2排放。此外,与更大的SOTA模型RAPHAEL相比,PIXART-α的训练成本仅为其1%。这些成果表明,PIXART-α在图像质量、艺术性和语义控制方面表现出色,为AIGC社区和初创企业提供了新的见解,帮助他们以更低的成本从头开始构建自己的高质量生成模型。
3、实验结果:
PIXART-α在保持与现有最先进模型竞争力的同时,显著降低了训练成本和CO2排放。
在图像质量、艺术性和语义控制方面表现出色,用户研究显示其在质量和对齐方面优于现有SOTA模型。
对模型的关键修改进行了消融研究,验证了结构修改和重参数化设计的有效性。
4、 应用扩展:
展示了PIXART-α在不同应用场景下的生成能力,如与DreamBooth和ControlNet结合进行定制化图像生成。
5、 结论:
PIXART-α为AIGC社区和初创企业提供了新的见解,帮助他们以更低的成本构建高质量的T2I模型。
6、未来工作:
提出了进一步探索的方向,如模型扩展性、风格和内容控制、交互式生成、多模态输入、数据集和训练策略优化、环境影响优化、模型可解释性、跨领域应用以及模型压缩和加速。
整体而言,这篇论文通过提出PIXART-α模型,展示了在文本到图像生成领域实现高效、低成本和环境友好的训练方法的可能性。