【Paper Reading】7.DiT(VAE+ViT+DDPM) Sora的base论文

VAE

DDPM 

分类

内容

论文题目

Scalable Diffusion Models with Transformers

作者

William Peebles (UC Berkeley), Saining Xie (New York University)

发表年份

2023

摘要

介绍了一类新的扩散模型,这些模型利用Transformer架构,专注于图像生成的潜在扩散模型。这些模型用在latent patches上操作的Transformer替换了常见的U-Net骨架。通过前向传递复杂度分析了可扩展性,显示出具有更高Gflops的模型一致地实现了更低的FID分数。最大的模型在类条件ImageNet生成任务上设定了新的基准。

引言

讨论了跨各种领域(包括NLP和视觉)由Transformer驱动的机器学习的最新进展。强调了在传统使用U-Net架构的扩散模型中,Transformer的潜力。引言为探索基于变压器的扩散模型(DiTs)的可扩展性和有效性奠定了基础。

主要内容

提出了作为扩散模型的可扩展和有效架构的Diffusion Transformers(DiTs),强调了它们的设计、训练和在图像生成任务上的性能。详细讨论了从U-Net到Transformer的过渡,为适应扩散模型而做出的设计选择,以及引入新的图像质量基准。通过改变模型大小和patches大小来探讨DiTs的可扩展性,展示了在FID分数上的显著改进。

实验

通过在256x256和512x512分辨率的类条件ImageNet生成任务上评估DiTs的性能,将它们与先前的最先进模型进行比较。证明了DiTs在图像质量上的优越性,如通过更低的FID分数所证明。还探索了不同条件策略和模型缩放对性能的影响,进一步验证了DiTs在生成高质量图像方面的可扩展性和效率。

结论

DiTs在基于扩散的图像生成任务中超越了现有的U-Net模型,受益于Transformer架构的可扩展性和效率。提出了进一步扩展DiTs和探索它们在其他生成任务中应用的潜在未来方向,如文本到图像模型。强调了在类条件ImageNet基准上取得的有希望的结果,作为DiTs潜力的证据。

阅读心得

这篇论文是Sora的基础,作者William Peebles同时也是Sora的负责人。

该论文提出了一种综合VAE+ViT+DDPM的基础架构,主要是在latent patches(可以去看VAE)空间进行操作,这样做的好处是首先计算cost会减小很多,例如如果在原始的图片上操作,例如256x256,那在latent patches空间就可以是32x32. Latent patches是指训练一个图像编码器,我们首先可以把原始图像编码为embeding, 也就是E(x), 编码后的空间就是论文中所说的latent patches空间.

另外,论文中对不同结构的DiT Block的变体进行了对比实验,如上图所示. DiT是指 Diffusion Transformer, 类似ViT(Vision Transformer). 实验证明采用adaLN-Zero的变体结构效果最好. 具体的各个变体的说明可以看论文.

亮点:

  • 使用Transformer代替U-net。

  • DiT的 adaLN-zero 这种结构

注:adaLN-zero 是 DiT (Diffusion Image Transformer) 中的一种技术,它是一种自适应层归一化(Adaptive Layer Normalization)方法。在图像生成任务中,归一化是一种重要的技术,用于帮助模型训练和稳定性。adaLN-zero 特别设计用于扩散模型,通过动态调整归一化参数以适应不同的生成阶段和条件,从而提高生成图像的质量和一致性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/535189.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Maya自定义工具架

有时候我们需要自己定义工具架上的内容,比如将一个工具放到工具架上,或者删除一个工具 添加一个工具 例如我们想在多边形建模栏位上添加一个分离按钮,默认 1 先切换到想要添加的工具架栏位 2 打开菜单,找到我们想添加的工具 …

Jmeter - 从入门到精通 - 环境搭建(详解教程)

一、JMeter 介绍 Apache JMeter是100%纯JAVA桌面应用程序,被设计为用于测试客户端/服务端结构的软件(例如web应用程序)。它可以用来测试静态和动态资源的性能,例如:静态文件,Java Servlet,CGI Scripts,Java Object,数据库和FTP服…

SM4加密是什么?SM4算法在国密HTTPS协议中的作用

SM4算法,全称为“国密SM4分组密码算法”,是国家密码管理局颁布的一种对称加密算法它是我国商用密码体系中的重要组成部分。与国际上广泛使用的AES等算法类似,SM4同算法样用于保护数据的机密性,确保信息在传输过程中不被未授权的第…

中东斋月将近,外贸业务要抓紧了!

Question.1 斋月所涉及的国家有哪些? 据统计,共计有48个国家会恭迎斋月的到来,集中分布于亚洲西部和非洲北部。其中黎巴嫩、乍得、尼日利亚、波黑和马来西亚只有约一半的人信仰伊斯兰教。 阿拉伯国家(22个) 亚洲:科威特、伊拉克、叙利亚、…

250+可用的 AI 资源网站

💂 个人网站:【 海拥】【神级代码资源网站】【办公神器】🤟 基于Web端打造的:👉轻量化工具创作平台💅 想寻找共同学习交流的小伙伴,请点击【全栈技术交流群】 这里是关于AI网站的一份资源列表。欢迎访问该链…

知轮科技智慧轮胎系统升级:从 Elasticsearch 到 TDengine 3.0 的应用实践

小T导读:随着知轮智慧轮胎系统的不断升级迭代,数据规模也在不断增长,内外部人员对智慧系统整体业务响应速度和稳定性要求变得更高。为了满足这一需求,该项目团队决定应用 TDengine 替换原有的 Elasticsearch 检索分析引擎&#xf…

支付模块-基于消息队列发送支付通知消息

消息队列发送支付通知消息 需求分析 订单服务作为通用服务,在订单支付成功后需要将支付结果异步通知给其他对接的微服务,微服务收到支付结果根据订单的类型去更新自己的业务数据 技术方案 使用消息队列进行异步通知需要保证消息的可靠性即生产端将消息…

【一】【设计模式】类关系UML图

1. 继承(Generalization) 继承是对象间的一种层次关系,允许子类继承并扩展父类的功能。 UML线:带有空心箭头的直线,箭头指向基类(父类)。 class Parent {public void parentMethod() {System.…

STM32第十课:串口发送

一、usart串口 1.1 USART串口协议 串口通讯(Serial Communication) 是一种设备间非常常用的串行通讯方式,因为它简单便捷,因此大部分电子设备都支持该通讯方式,电子工程师在调试设备时也经常使用该通讯方式输出调试信息。在计算机科学里&…

提速电商效果图云渲染:优势与策略

云渲染为电商效果图提供了快速、高效的解决方案,利用其庞大的计算能力和并行处理优势,即便是复杂场景也能迅速渲染完成,大幅提高工作效率和加快产品上市节奏。 一、电商效果图有什么用? 电商效果图在电商行业中扮演着至关重要的角…

Midjourney封禁Stability AI:恶意爬取数据,致服务器瘫痪24小时

这两家 AI 图像生成公司之间发生什么事了。虽然 AI 生图领域,看似百花齐放,但论资排辈,Midjourney、Stability AI 还是很受用户欢迎的。 Midjourney 把 Stability AI 拉入黑名单了,禁止后者所有员工使用其软件,直至另…

Could not use APOC procedures

报错内容: Traceback (most recent call last):File "/root/anaconda3/envs/sakura/lib/python3.9/site-packages/langchain_community/graphs/neo4j_graph.py", line 205, in __init__self.refresh_schema()File "/root/anaconda3/envs/sakura/lib…