当Diffusion遇到Transformer

Diffusion与Tranformer结合的代表性文章

一、DiT

题目: Scalable Diffusion Models with Transformers
机构:UC Berkeley,纽约大学
论文: https://arxiv.org/pdf/2212.09748.pdf
代码:https://github.com/facebookresearch/DiT
任务: 图像生成
特点: 将Diffusion中常常用到的UNet替换为transformer结构,并分析模型复杂度以及生成质量的关系,相比于UNet在效率上的优势,以及模型架构的可扩展性
前置相关工作:LDM,DDPM,transformer

1、动机

Transformer结构在自然语言处理以及视觉等领域取得了广泛应用,但是在pixel-level的生成任务上,往往和自回归方法相结合,因此本文将Transformer架构与Diffsuion生成方法相结合,提出基于transformer的扩散模型(Diffusion Transformers,简称DiTs),并分析这些模型在不同复杂度下的可扩展性和性能。具体来说,论文探讨了以下几个关键问题:

  1. Transformer rather than UNet:论文研究了将Transformer架构作为扩散模型(特别是去噪扩散概率模型,DDPMs)的骨干网络(backbone)的可行性,以替代传统的基于U-Net的架构。
  2. 模型复杂度与生成质量的关系:通过构建和评估DiT模型的设计空间,论文分析了模型复杂度(以GFLOPS为度量)与生成样本质量(以Fréchet Inception Distance,FID为度量)之间的关系。
  3. DiT模型的可扩展性:论文展示了通过增加Transformer的深度、宽度或输入令牌数量(即增加GFLOPS)可以显著降低FID,从而提高生成图像的质量。
  4. DiT模型在特定任务上的性能:论文在ImageNet数据集上训练DiT模型,并在512×512和256×256分辨率的条件下,与现有的扩散模型进行性能比较,展示了DiT模型在这些任务上的优越性。
  5. DiT模型的计算效率:论文还探讨了DiT模型相对于其他基于U-Net的扩散模型(如ADM和LDM)在计算效率方面的表现。

总的来说,这篇论文的目标是推动扩散模型领域的发展,通过引入Transformer架构来提高图像生成任务的性能,并探索这种新型模型的可扩展性和效率。

2、相关工作

A: 这篇论文提到了多个与扩散模型(Diffusion Models)、Transformers、以及图像生成相关的研究工作。以下是一些关键的相关研究:

  1. 扩散模型(Diffusion Models):

Ho et al. [19]:DDPM首次引入了U-Net作为扩散模型的骨干网络
Dhariwal and Nichol [9]:guided diffusion(Diffusion Models Beat GANs on Image Synthesis)对U-Net架构进行了消融研究,并提出了改进的扩散模型,但是整体的UNet大框架没有改变
Karras et al. [20]:提出了级联扩散模型(Cascaded Diffusion Models),用于高保真图像生成。

  1. Transformers:

Vaswani et al. [60]:提出了原始的Transformer模型,这是后续所有基于Transformer的研究的基础。
Dosovitskiy et al. [10]:提出了Vision Transformer(ViT),将Transformer架构应用于图像识别任务,同时也验证了相比于resetnet这样的卷积结构,ViT更具备可扩展性,当然这与本文的标题Scaling也是一致的。
Radford et al. [3]:展示了语言模型(如GPT-3)在少样本学习中的潜力。

  1. 图像生成:

Goodfellow et al. [12]:提出了生成对抗网络(GANs),这是图像生成领域的一个重要里程碑。
Brock et al. [2]:BigGAN在大规模GAN训练中取得了高保真度的自然图像合成。
Ramesh et al. [47]:LDM提出了基于CLIP潜在空间的层次化文本条件图像生成模型。

  1. 其他相关研究:

Nichol and Dhariwal [9, 36]:分析了U-Net架构类的可扩展性和GFLOP属性。
Isola et al. [23]:提出了条件对抗网络(Conditional Adversarial Networks),用于图像到图像的翻译。
Kingma and Welling [30]:提出了变分自编码器(VAE),这是生成模型的另一种形式。

这些研究为理解扩散模型、Transformers以及图像生成领域的最新进展提供了基础,并为DiT模型的设计和评估提供了理论支持。

3、论文方法

A: 论文通过以下几个关键步骤来解决将Transformer架构应用于扩散模型的问题,并分析其可扩展性和性能:

  1. DiT架构设计:首先,论文提出了一种新的扩散模型架构,称为Diffusion Transformers(DiTs)。这种架构基于Vision Transformers(ViTs),将图像的潜在表示(latent patches)作为输入,并通过一系列Transformer块进行处理。

  2. 条件化策略:为了处理额外的条件信息(如噪声时间步、类别标签等),论文探索了不同的Transformer块设计,包括in-context conditioning、cross-attention、adaptive layer norm(adaLN)和adaLN-Zero。这些设计允许模型在不改变标准ViT块的情况下,有效地利用条件信息。在这里插入图片描述

  3. 模型复杂度与性能分析:论文通过构建DiT模型的设计空间,包括不同的模型大小(如DiT-S、DiT-B、DiT-L和DiT-XL)和输入令牌的数量(通过改变patchify层的patch size),来研究模型复杂度(以GFLOPS为度量)与样本质量(以FID为度量)之间的关系。

  4. 实验验证:在ImageNet数据集上,论文训练了不同配置的DiT模型,并与现有的扩散模型进行了性能比较。实验结果表明,DiT模型在不同分辨率下都能达到或超过现有模型的性能,尤其是在256×256分辨率下,DiT-XL/2模型实现了2.27的FID,这是一个新的最佳性能。

  5. 计算效率:论文还分析了DiT模型的计算效率,发现DiT模型相对于基于U-Net的模型(如ADM和LDM)在训练和生成过程中更加高效。

  6. 可扩展性研究:通过增加模型的GFLOPS(无论是通过增加Transformer的深度/宽度还是增加输入令牌的数量),论文展示了DiT模型在样本质量上的显著提升,这表明DiT模型具有良好的可扩展性。

通过这些步骤,论文不仅成功地将Transformer架构应用于扩散模型,而且还展示了这种新型模型在图像生成任务中的潜力和可扩展性。

4、论文实验

A: 论文进行了一系列的实验来探索和验证DiT模型的性能和可扩展性。以下是主要的实验内容:

  1. DiT块设计实验:
    论文训练了四种不同设计的DiT-XL/2模型,每种模型使用不同的块设计:in-context conditioning、cross-attention、adaptive layer norm (adaLN) 和 adaLN-Zero。这些实验旨在比较不同条件化策略对模型性能的影响。

  2. 模型大小和patch size的缩放实验:
    论文训练了12个DiT模型,覆盖了不同的模型配置(S、B、L、XL)和patch sizes(8、4、2)。这些实验旨在研究模型大小(通过增加Transformer层数和隐藏层大小)和输入令牌数量(通过减小patch size)对FID的影响。
    DiT模型与现有扩散模型的比较:
    在ImageNet数据集上,论文将DiT模型与现有的扩散模型(如ADM、LDM等)进行了性能比较。这包括在256×256和512×512分辨率下的FID、sFID、Inception Score、Precision和Recall等指标。

  3. 计算效率分析:
    论文分析了DiT模型在训练过程中的计算效率,包括训练损失曲线和训练迭代次数。此外,还比较了DiT模型与基于U-Net的模型在采样计算量和模型计算量方面的差异。

  4. VAE解码器的消融研究:
    为了评估VAE解码器对DiT模型性能的影响,论文在不同的预训练VAE解码器(如ft-MSE和ft-EMA)之间进行了比较。

  5. DiT模型的可视化:
    论文展示了DiT模型生成的图像样本,以及在不同分类器自由引导(classifier-free guidance)尺度下的样本质量。

  6. DiT模型的长期训练:
    对于DiT-XL/2模型,论文进行了长达7百万步的训练,并观察了FID随训练步骤的变化。

这些实验不仅验证了DiT模型在图像生成任务中的有效性,还揭示了模型复杂度与生成图像质量之间的强相关性,以及DiT模型相对于传统U-Net模型在计算效率方面的优势。

5、Future work

尽管论文已经取得了显著的成果,但仍有许多潜在的研究方向可以进一步探索:
更大的模型规模: 论文展示了DiT模型在增加计算量(GFLOPS)时性能的提升。未来的研究可以继续扩大模型规模,探索更大的模型是否能够进一步提高图像生成的质量。
不同的条件化策略:虽然论文已经尝试了几种条件化策略,但可能还有其他有效的方法可以进一步改善DiT模型的性能。例如,可以尝试结合多种策略或开发新的条件化机制。
跨领域应用: DiT模型在图像生成领域表现出色,但其架构的通用性意味着它可能适用于其他领域,如文本到图像生成、视频生成等。研究DiT在这些领域的应用是一个有趣的方向。
训练效率和稳定性: 尽管DiT模型在性能上取得了突破,但训练大型模型仍然是一个挑战。研究如何提高训练效率和稳定性,例如通过改进优化算法或引入正则化技术,是值得探索的。
模型解释性和可解释性: 理解DiT模型的内部工作机制,以及如何解释生成的图像,对于提高模型的透明度和可信度至关重要。研究模型解释性可以帮助用户更好地理解和信任生成的图像。
数据集和任务的多样性: 论文主要在ImageNet数据集上进行了实验。将DiT模型应用于更多样化的数据集和任务,如医学成像、艺术风格迁移等,可以进一步验证其泛化能力。
模型压缩和部署: 为了在资源受限的环境中部署DiT模型,研究模型压缩和加速技术,如知识蒸馏、量化和剪枝,是必要的。
与人类创造力的结合: 探索如何将DiT模型与人类的创造力相结合,例如通过交互式生成或辅助设计工具,可以开辟新的应用场景。

这些方向不仅有助于推动DiT模型本身的发展,还可能为整个生成模型领域带来新的突破。

6、总结

A: 这篇论文介绍了一种新的基于Transformer架构的扩散模型,称为Diffusion Transformers(DiTs),用于图像生成任务。以下是论文的主要内容概述:

背景与动机:论文指出,尽管Transformer在自然语言处理和视觉领域取得了巨大成功,但在图像生成模型中的应用相对较少。特别是,扩散模型(如Denoising Diffusion Probabilistic Models, DDPMs)通常采用基于U-Net的架构。作者旨在探索将Transformer架构引入扩散模型的潜力。

DiT架构:论文提出了DiT架构,它遵循Vision Transformers(ViTs)的最佳实践,将图像的潜在表示(latent patches)作为输入,并通过一系列Transformer块进行处理。DiT架构包括patchify层、DiT块(包含不同的条件化策略)、模型层和Transformer解码器。

实验设计:作者在ImageNet数据集上训练了不同配置的DiT模型,并与现有的扩散模型进行了比较。实验包括分析模型复杂度(GFLOPS)与样本质量(FID)之间的关系,以及DiT模型在不同分辨率下的性能。

主要发现:
DiT模型在增加计算量(GFLOPS)时,样本质量(FID)显著提高。

在256×256分辨率的ImageNet数据集上,DiT-XL/2模型达到了2.27的FID,这是当时的最佳性能。

DiT模型在计算效率上优于基于U-Net的模型,尤其是在训练和生成过程中。

可扩展性分析:论文展示了DiT模型具有良好的可扩展性,通过增加模型大小或输入令牌数量,可以进一步提高生成图像的质量。

未来工作:论文提出了几个潜在的研究方向,包括进一步扩大模型规模、探索新的条件化策略、将DiT应用于其他领域、提高训练效率、增强模型解释性以及模型压缩和部署。

二、PIXART-α

题目: PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis
机构:华为
论文:https://arxiv.org/abs/2310.00426
代码:https://pixart-alpha.github.io/

在这里插入图片描述

这篇论文介绍了PIXART-α,这是一个基于Transformer的文本到图像(T2I)扩散模型,旨在解决现有T2I模型训练成本高和环境影响大的问题。以下是论文的主要内容总结:

1、问题背景:

当前先进的T2I模型,如Imagen、Stable Diffusion等,需要巨大的计算资源进行训练,这不仅增加了成本,还导致了显著的CO2排放。

2、PIXART-α的核心设计:

训练策略分解:

  1. 将复杂的文本到图像生成任务分解为三个子任务:学习自然图像的像素分布、学习文本与图像的对齐以及提高图像的审美质量。
  2. 在第一阶段,使用低成本的类别条件模型初始化T2I模型,显著降低学习成本。
  3. 在第二阶段,通过在信息密度丰富的文本-图像对数据上进行预训练,然后对具有更高审美质量的数据进行微调,提高训练效率。

高效的T2I Transformer: 在Diffusion Transformer(DiT)的基础上,引入交叉注意力模块以注入文本条件,并简化计算密集的类别条件分支。提出了一种重参数化技术,允许调整后的文本到图像模型直接加载原始类别条件模型的参数,从而利用从ImageNet学到的关于自然图像分布的先验知识,为T2I Transformer提供合理的初始化并加速其训练。

高信息量数据:利用大型视觉-语言模型自动标记密集的伪标题,以提高文本-图像对齐学习。使用LLaVA(Liu et al., 2023)在SAM(Kirillov et al., 2023)数据集上生成描述,SAM数据集由于其丰富多样的对象集合,是创建高信息密度文本-图像对的理想资源。

通过这些设计,PIXART-α在保持与现有最先进图像生成器竞争力的同时,显著减少了训练成本和CO2排放。例如,PIXART-α的训练时间仅为Stable Diffusion v1.5的12%,训练成本仅为其1%,同时减少了90%的CO2排放。此外,与更大的SOTA模型RAPHAEL相比,PIXART-α的训练成本仅为其1%。这些成果表明,PIXART-α在图像质量、艺术性和语义控制方面表现出色,为AIGC社区和初创企业提供了新的见解,帮助他们以更低的成本从头开始构建自己的高质量生成模型。

3、实验结果:

PIXART-α在保持与现有最先进模型竞争力的同时,显著降低了训练成本和CO2排放。

在图像质量、艺术性和语义控制方面表现出色,用户研究显示其在质量和对齐方面优于现有SOTA模型。

对模型的关键修改进行了消融研究,验证了结构修改和重参数化设计的有效性。

4、 应用扩展:

展示了PIXART-α在不同应用场景下的生成能力,如与DreamBooth和ControlNet结合进行定制化图像生成。

5、 结论:

PIXART-α为AIGC社区和初创企业提供了新的见解,帮助他们以更低的成本构建高质量的T2I模型。

6、未来工作:

提出了进一步探索的方向,如模型扩展性、风格和内容控制、交互式生成、多模态输入、数据集和训练策略优化、环境影响优化、模型可解释性、跨领域应用以及模型压缩和加速。

整体而言,这篇论文通过提出PIXART-α模型,展示了在文本到图像生成领域实现高效、低成本和环境友好的训练方法的可能性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/479444.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SQL Developer 小贴士:显示RAC配置

前提: 已建立2节点RAC已在SQL Developer中建立了2个连接,分别到RAC的两个节点 然后单击菜单View>DBA,分别连接RAC节点1和节点2,并组织成目录(不必须,但建议)。 在两处可以体现为RAC配置。第…

第3.2章:Doris-2.0数据导入——Compaction机制

目录 一、Compaction概述 1.1 LSM-Tree概述 1.2 Compaction概述 1.3 Rowset数据版本 1.4 Compaction优点 1.5 Compaction问题 1.5.1 Compaction速度低 1.5.2 写放大问题 1.6 Compaction调优 1.6.1 业务侧 1.6.2 运维侧 二、Compaction执行方式 2.1 Vertical Com…

成都力寰璨泓科技有限公司抖音小店品质保障

在数字化浪潮席卷全球的今天,网络购物已成为人们日常生活的重要组成部分。抖音小店作为新兴的电商平台,凭借其独特的社交属性和个性化推荐机制,吸引了众多消费者的目光。在众多抖音小店中,成都力寰璨泓科技有限公司的店铺以其卓越…

春招面试准备笔记——NMS(非极大值抑制)算法

NMS(非极大值抑制)算法非极大值抑制是用于减少物体检测算法中重叠边界框或区域的数量的技术。通过对每个类别的检测框按置信度排序,然后逐个遍历,保留置信度最高的框,并抑制与其重叠且置信度低的框,从而得到…

打通全渠道,聚道云助力时尚巨头提升运营效能

客户介绍: 北京某时尚有限公司是一家集设计、生产、销售于一体的时尚产业领军企业。自成立以来,该公司一直秉承着对时尚的独特理解和不懈追求,以打造高品质、高品位的时尚产品为己任,深受国内外消费者的喜爱。 客户痛点&#xff…

23款奔驰GLC260L升级固定踏板 豪华氛围灯 浪漫的气氛

奔驰看内饰,但23款GLC260L十一月份后的车 减配了豪华氛围灯 ,内饰瞬间少了点意思,所以车主过来升级一套豪华氛围灯 前后发光出风口 门板扶手也升级为发光的 顺带升级一套固定踏板 接下来看图,星骏汇小许Xjh15863

SG-8201CJA(汽车可编程晶体振荡器)

爱普生的SG-8021CJA是一款符合AEC-Q100标准的晶体振荡器,专为要求苛刻的汽车/ADAS应用(如激光雷达和相机ECU)而设计。它采用爱普生的内部低噪声小数NPLL,输出 频率高达170MHz,相位抖动小于1/25,稳定性比之前…

【4.3计算机网络】网络规划与设计

目录 1.网络规划2.逻辑网络设计3.物理网络设计 1.网络规划 需求分析->通信规范分析->逻辑网络设计->物理网络设计->实施阶段 2.逻辑网络设计 3.物理网络设计 例题1: 解析:选A。 例题2: 解析:选A。 例题3. 解析&am…

Java 反射 类加载阶段 类加载时机 Class类 Field类 Method类 Constructor类

JAVA反射机制是在运行状态中,对任意一个类,都能知道这个类的所有属性和方法;对任意一个对象,都能够调用它的任意方法和属性,这种动态获取信息以及动态调用对象方法的功能称为java语言的反射机制。 反射(Reflect)是在运…

3dmax渲染有噪点的六大原因及解决方案

3dmax效果图渲染可以试试云渲染——渲染100(支持批量渲染,不占用本地电脑资源,最高480线程大大提高渲染效率) 问题一:图像尺寸过低导致渲染效果不佳 原因:3dmax中的图像尺寸过低,导致渲染后的效…

频段划分学习射频知识的意义

一、射频电路设计与低频电路设计的不同点 随着频率提高,相应电磁波的波长与变得可与分立电路元件的尺寸相比拟时,电阻、电容和电感这些元件的电响应,将偏离他们的理想频率特性。以 WIFI 2.4G 频段为例,当频率为 2437MHz&#xff0…

java中容易被忽视的toString()方法

之前一直认为toString就是将数据转换成字符类型,直到最近写出了一个bug才对toString有了新的认识 不同数据类型,toString() 有不同的操作 定义一个student类,包含姓名 String类型、性别 String类型、年龄 int 类型、分数列表 String类型的li…