ICLR 2025 | 无需训练的Token级 DiT加速方法

news/2025/2/26 11:56:10/文章来源:https://www.cnblogs.com/wxkang/p/18738172
前言 本文分享 ICLR 2025 论文 ToCa: Accelerating Diffusion Transformers with Token-wise Feature Caching,提出的 ToCa 模型通过 token 粒度的缓存方法,实现了图像和视频生成模型上无需训练的两倍以上的加速。

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

本文转载自我爱计算机视觉

仅用于学术分享,若侵权请联系删除

CV方向的准研究生们,未来三年如何度过?

招聘高光谱图像、语义分割、diffusion等方向论文指导老师

  • 论文:
  • Github:
  • 联系方式:shenyizou@outlook.com
  • 通讯作者:zhanglinfeng@sjtu.edu.cn

摘要 Abstract

Diffusion Transformer在图像和视频生成中展现了显著的效果,但代价是巨大的计算成本。

为了解决这一问题,特征缓存方法被引入,用于通过缓存前几个时间步的特征并在后续时间步中复用它们来加速扩散Transformer。然而,之前的缓存方法忽略了不同的token对特征缓存表现出不同的敏感性,而对某些token的特征缓存可能导致生成质量整体上高达10倍的破坏,相较于其他token。

在本文中,我们提出了基于token的特征缓存方法,允许我们自适应地选择最适合进行缓存的token,并进一步使我们能够为不同类型和深度的神经网络层应用不同的缓存比率。

通过在PixArt-α、OpenSora和DiT, 以及FLUX上的广泛实验,我们证明了在图像和视频生成中无需训练即可实现我们方法的有效性。例如,在OpenSora和PixArt-α上分别实现了2.36倍和1.93倍的接近无损的生成加速。

 

背景 Backgrounds

扩散模型(Diffusion Models)在图像生成、视频生成等多种生成任务中展现了出色的性能。近年来,以FLUX, Sora, 可灵等模型为代表的 Diffusion Transformers 通过扩展参数量和计算规模进一步推动了视觉生成领域的发展。

然而,Diffusion Transformers面临的一个重大挑战在于其高计算成本,这导致推理速度缓慢,从而阻碍了其在实时场景中的实际应用。为了解决这一问题,研究者们提出了一系列加速方法,主要集中在减少采样步数和加速去噪网络模型。

近期,基于特征缓存来实现去噪模型加速的方法由于其优秀的无损加速性能,以及无需训练的优良性能,受到工业界的广泛关注。

上海交通大学张林峰团队进一步注意到一个自然而有趣的现象:不同计算层,以及同计算层的不同 Token 对于缓存误差的适应性不同,同样的缓存误差在不同位置对模型影响最高可以达到数十,百倍的差异,因此有必要进一步将模型加速的粒度由特征级进一步到 token 级,并考虑了如何衡量视觉生成模型中 token 的重要性,以实现重要 token 的筛选保留。

 

核心贡献 TL,DR

  1. ToCa 首次在DiT加速中中引入 token 级的缓存复用策略,并首次从误差积累与传播的角度分析特征缓存方法。
  2. ToCa 提出 4 种从不同角度出发,适用于不同情形的 token selection策略:(a)基于Self-Attention Map来评估 token对其它token的影响; (b)基于Cross-Attention Map评估文生图/视频任务中 image token 对 text token的关注分布,以加强控制能力; (c) 基于该 token在先前去噪步中的被连续缓存复用的次数设计增益策略,鼓励token在时间步上被更均匀地计算,避免局部误差积累过大,破坏全局图像; (d)将各个token的重要性得分基于空间分布进行加权,鼓励被计算的token在空间上分布更均匀。
  3. ToCa 被应用于多种最新模型上开展实验,证明了其相比现有方法更加优秀,包含文生图模型PixArt-alpha,FLUX-dev和FLUX-schnell,文生视频模型 OpenSora,以及基于ImageNet类标签生成图像的DiT模型。

 

研究动机

如图1所示,不同token在相邻两步间进行特征缓存引入的误差值的差异高达几十上百倍;图2说明不同token上引入同样大小的误差,这最初幅度相同的误差在模型推理过程经过积累和传播,对模型的输出的影响差异也极大。

因此,有必要考虑token级别的特征缓存-复用策略,使得模型的计算更集中在关键被需要的token上。

 

方法

计算流程

ToCa的缓存-复用流程如图3(a)所示:

  1. Cache 初始化 首先推理一个完整的时间步,将各层的特征放入cache中以便使用。
  2. 重要性得分计算在使用ToCa的时间步上,对于每一层:先计算各个token的重要性得分,将最低的部分token 标记为cache状态(例如图示中ID为1和3的token),不传入网络层进行计算。
  3. 部分计算对于被传入的token(2,4,5),执行正常的计算,得到它们的输出。
  4. Cache更新从cache中调出存储的 token 1,3的输出,并将计算得到的新的token 2,4,5输出更到cache中。

通常这样的一个循环长度为2~4个时间步,即1步充分计算后续搭配1至3个ToCa step。此外,ToCa还基于不同层的重要性,设计了随着层深度上升而衰减的计算比例,详情请参考论文。

重要性得分计算

如图4所示,ToCa设计了基于4个不同方面考虑的重要性分数计算,在实际应用中它们以 加权求和给出总重要性得分,详情请参考论文。

 

实验结果

ToCa被应用于文本到图像生成模型 PixArt-alpha, FLUX, 类到图像生成模型 DiT, 以及文本到视频生成模型 OpenSora以验证其方法有效性,充分的实验结果证明,ToCa具有超越其他同类方法的加速效果。

图像生成模型: PixArt-alpha,FLUX, DiT

如上图所示,ToCa相比另两种加速方法和无加速的高质量原图对齐效果更佳,且具有更佳的图-文对齐能力(例如从左到右第四列的wooden dock)。

从FID-30k和 CLIP Score上衡量,ToCa也取得了远超其他方法的表现。

如上图所示,ToCa在FLUX 模型上的生成质量也极佳,可以看到和原图基本没有差异。但值得考虑的是在文字生成这类对细节要求极其高的任务上(例如左下角的地图)仍有差异,这将作为我们后续研究的出发点。

对于高级的模型,使用Image Reward通常能更好地对生成质量进行衡量,我们分别在50step的FLUX-dev和4step的FLUX-schnell上开展了实验,可以看到,ToCa在FLUX上1.5倍加速,相比未加速模型的数值指标基本不变,远远优于其他方法。

在基础模型DiT上的结果也证明了ToCa的优越性。

视频生成模型:OpenSora

我们制作了一个网页来展示OpenSora上的加速效果,期待您的到访。

  • web page: 

此外,我们将视频生成结果部分抽帧以供快速浏览:

我们在VBench上测试了ToCa的加速效果,实验结果表明,ToCa远优于其他方法,取得了高达2.36倍的无损加速,在加速效果和生成质量上都取得最优表现。

如上图所示,ToCa在 VBench的大部分指标上都取得了和原模型几乎相同的得分。

 

总结

ToCa 作为首次被提出的从Token级来实现扩散模型加速的方法,相比以往加速方法具有更强的适配性,(尽管设计时作为专为DiT加速的方案,它的结构也可以被复用到U-Net结构的模型上),同时在多种任务上具有极佳的表现。

近年来,包括ToCa在内的系列基于特征缓存的扩散模型加速方法兼具无需训练的优越性和强劲的无损加速效果,取得了卓越的成效,是一种不同于蒸馏类方法的值得被进一步探索的加速方案。欢迎联系 shenyizou@outlook.com 进一步探讨本项目相关的细节。

 

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

分享一个CV知识库,上千篇文章、专栏,CV所有资料都在这了

明年毕业,还不知道怎么做毕设的请抓紧机会了

LSKA注意力 | 重新思考和设计大卷积核注意力,性能优于ConvNeXt、SWin、RepLKNet以及VAN

CVPR 2023 | TinyMIM:微软亚洲研究院用知识蒸馏改进小型ViT

ICCV2023|涨点神器!目标检测蒸馏学习新方法,浙大、海康威视等提出

ICCV 2023 Oral | 突破性图像融合与分割研究:全时多模态基准与多交互特征学习

听我说,Transformer它就是个支持向量机

HDRUNet | 深圳先进院董超团队提出带降噪与反量化功能的单帧HDR重建算法

南科大提出ORCTrack | 解决DeepSORT等跟踪方法的遮挡问题,即插即用真的很香

1800亿参数,世界顶级开源大模型Falcon官宣!碾压LLaMA 2,性能直逼GPT-4

SAM-Med2D:打破自然图像与医学图像的领域鸿沟,医疗版 SAM 开源了!

GhostSR|针对图像超分的特征冗余,华为诺亚&北大联合提出GhostSR

Meta推出像素级动作追踪模型,简易版在线可玩 | GitHub 1.4K星

CSUNet | 完美缝合Transformer和CNN,性能达到UNet家族的巅峰!​

AI最全资料汇总 | 基础入门、技术前沿、工业应用、部署框架、实战教程学习

计算机视觉入门1v3辅导班

计算机视觉交流群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/890024.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Ⅱ.数据的机器级表示

章节导论: 2.1 位和数据类型 2.1.1 信息最小单位-位(0和1)(如高电压(0.9-1.1v)和低电压(0.0-0.2v)) 2.1.2 数据类型 2.2 整数 2.2.1 无符号整数 位置计数法:通过各个位置的数字不同的权重来表示一个数字 如286=2*102+8*101+6 ,在这个十进制系统中基数为10,同理,二进…

生产CPU打满问题排查

运行好好的系统,突然Prometheus告警,CUP使用率95%告警。赶紧排查一下。 一、先用top -H 命令查看占用CUP高的是哪个进程,看到PID:32518 的进程占用cup过高 二、用top -Hp 32518看看占用资源最多的线程 三、用jstack 32518 > 32518.jstack.log 命令把线程堆栈打印出来四、使…

3 2000年英语一阅读理解Text3

3 2000年英语一阅读理解Text3When a new movement in art attains a certain fashion, it is advisable to find out what its advocates are aiming at, for, however farfetched and unreasonable their principles may seem today, it is possible that in years to come th…

网盘批量分享,转存,重命名,资源监控,数据同步工具

在当今数字化时代,网盘已成为我们存储和分享文件的重要工具。然而,面对多个网盘和账号,如何高效管理这些资源成为了许多用户的难题。为此,我们推出了一款多功能网盘管理工具,旨在帮助用户轻松实现批量操作、资源监控和数据同步,提升文件管理效率。核心功能批量分享与转存…

若依开后端开发常见问题

前端填写完数据后点击提交,出现以上错误,很明显是时间格式出了问题,来看一下后端控制台:可以看出是没有统一时间格式导致的,此类情况请检查后端代码,可以在LocalDateTime类型的时间属性上增加@JsonFormat注解,效果如下:修改完成后问题解决

Beats详解

一、Beats平台介绍 1.1 Beats介绍Beats是开源数据发送者,可以将其作为代理安装在您的服务器上,以将不同类型的运营数据发送到Elasticsearch。Beats可以直接发送数据到Elasticsearch或通过Logstash发送到Elasticsearch,可以使用它来分析和转换数据。 Packetbeat,Fileb…

Navicat17如何安装?附安装包及激活教程

前言 大家好,我是小徐啊。我们在开发Java应用的时候,一般是要连接数据库的。而连接数据库的常用工具就是navicat,它的功能十分强大。今天,小徐就来介绍下如何安装navicat17,以及如何激活。文末附获取方式。 如何安装和激活 首先,打开我们的安装包,双击下,开始安装。然后…

【Cursor】Cursor不显示Claude3.7

问题 Cursor模型选择中没有Claude 3.7 sonnet 原因 版本不支持 解决方案 升级版本至0.46 操作步骤 Cursor升级没有GUI界面按钮 需要使用Command(Ctrl)+Shift+P 呼出命令行 然后输入Cursor: Attempt Update即可升级 升级后进入Cursor Setting->Model 就可以看到Claude 3.7 …

多态的转型和案例--java进阶day02

1.多态的转型 1.向上转型 我们之前学的多态创建对象,使用的都是向上转型,父类引用指向子类(赋值方式则是从子到父),f拿到子类的地址,就能访问子类的堆内存2.向下转型 和向上转型相反,子类引用指向父类(赋值是从父到子),f现在记录着地址,这时再将其地址转交给子类对象…

2P4M-ASEMI照明控制专用2P4M

2P4M-ASEMI照明控制专用2P4M编辑:ll 2P4M外观与基本结构 2P4M 可控硅通常封装在一个小巧的塑料外壳内,从外观上看,它有着几个标志性的引脚。一般为三脚结构,每个引脚都肩负着不同的使命。其内部结构精密复杂,核心是由多层半导体材料交替堆叠而成,这些半导体层经过精心设计…

Task VS ValueTask

在 C# 中,异步编程是构建响应式应用程序的基础。Task 是表示异步操作的首选类型。但是,在某些高性能场景中,与 Task 相关的开销可能会达到一个瓶颈。ValueTask 是 .NET Core 2.1 中引入的结构。与引用类型的 Task 不同,ValueTask 是一种值类型,这使得它在某些情况下效率更…

EtherNet/IP转Modbus看网关模块驱动罗克韦尔PLC与上位机协议转换全过程

在工业自动化控制系统中,常常会遇到不同品牌和通信协议的设备需要协同工作的情况。本案例中,客户现场采用了 AB PLC,但需要控制的变频器仅支持 Modbus 协议。为了实现 AB PLC 对变频器的有效控制与监控,引入了捷米特 JM-EIP-RTU 网关模块来完成 EtherNet/IP 与 Modbus 之间…