字节跳动的 SDXL-LIGHTNING : 体验飞一般的文生图

TikTok 的母公司字节跳动推出了最新的文本到图像生成人工智能模型,名为SDXL-Lightning。顾名思义,这个新模型只需很轻量的推理步骤(1,4 或 8 步)即可实现极其快速且高质量的文本到图像生成功能。与原始 SDXL 模型相比,这是一个重大突破,原始 SDXL 模型需要超过 25 个步骤才能达到同等质量。

SDXL-LIGHTNING 简介

虽然 Diffusion 模型在生成任务中取得了出色的结果,但其迭代采样过程既缓慢又计算昂贵。对于实际应用,减少所需的步骤数至关重要。之前的工作尝试了更好的 ODE 求解器、直流和模型蒸馏,但质量在八个或以下的步骤中仍然低于标准。

SDXL 将潜在扩散引入文本到图像的生成,支持高分辨率 1024px 输出。然而,其多步采样进行了 50 多个推论。显然,需要更快的生成速度才能释放扩散模型的全部潜力。这就是 SDXL-Lightning 的用武之地。SDXL-Lightning 通过一步生成 1024 像素来突破界限。

渐进式对抗蒸馏法

SDXL-Lightning 模型同时利用渐进式和对抗性蒸馏。渐进式蒸馏教会学生网络预测密度流上更前方的位置,而对抗性损失则确保学生的预测与教师网络的预测相匹配。

此外,蒸馏过程从 128 步逐步降低到 32 步,再到最后的 1 步,经过多个阶段。在提取具有对抗性损失的模式覆盖率之后,放宽了要求,将质量优先于覆盖率,同时保留整体流程。

这种平衡的方法就是 SDXL-Lightning 能够出色地弥合困扰其他方法的质量保真度权衡的原因。 

SDXL-Lightning 中使用的模型是从 StabilityAI 的稳定扩散 XL 基础中提炼出来的。这确保了生成的图像保持高度的稳定性和连贯性。字节跳动提供了 1 步、2 步、4 步和 8 步蒸馏模型的检查点,每个检查点都有自己独特的生成质量。

  • sdxl_lightning_1step_x0.safetensors
  • sdxl_lightning_2step.safetensors
  • Sdxl_lightning_4step.safetensors
  • sdxl_lightning_8step.safetensors

性能评估

综合评估表明,SDXL-Lightning 为几步文本到图像生成设定了新的最先进技术。定性评估和 CLIP 评分指标均表明,与 LCM、SDXL-Turbo 和原始SDXL模型相比,SDXL-Lightning 可以生成质量更好的图像。

衡量质量和多样性的定量 Fréchet 起始距离 (FID) 分数与其他方法相当。然而,在 299 像素补丁上计算的 FID(评估高分辨率细节)要好得多,与次佳模型相比,得分低 2 倍以上。这验证了 SDXL-Lightning 在 1024 像素图像中生成了极其出色的细节。 

SDXL-LIGHTNING 的配置选项 

检查点可用于 1、2、4 和 8 个推理步骤,允许用户根据需要平衡速度与质量。1 步模型一次生成图像,但质量可能不一致,因此通常建议使用两步或更多步。 

支持两种架构选项——UNet 和 LoRA。 

1. UNET 检查点:2 步、4 步、8 步

UNet 模型使用标准的完整神经网络来调节扩散过程。它们提供最高的图像质量生成,但需要更多内存。BteDance 的 2 步、4 步和 8 步 UNet SDXL-Lightning 模型如下:

  • sdxl_lightning_2step_unet.safetensors
  • sdxl_lightning_4step_unet.safetensors
  • Sdxl_lightning_8step_unet.safetensors

2. LORA 检查点:2 步、4 步、8 步

这些模型还表现出处理不同纵横比的可靠能力,并展示了与现有 LoRA 模块的兼容性,以便在基本模型之间轻松转移。LoRA模型采用轻量级回归方法。图像质量略低于UNet。 

但 SDXL-Lightning 现已将 Loras 更新为 .safetensors 文件。这些更新的 .safetensors 文件提供了改进的稳定性和连贯性,从而产生更加真实和视觉上吸引人的图像。Loras 更新为 .safetensors 很有帮助,因为这些压缩文件可以节省存储空间。

  • sdxl_lightning_2step_lora.safetensors
  • sdxl_lightning_4step_lora.safetensors
  • Sdxl_lightning_8step_lora.safetensors

SDXL-LIGHTNING 与 COMFYUI 

该模型还可以与 ComfyUI 集成,以获得更人性化的体验。无论您选择 1 步、2 步、4 步、8 步 UNet 还是 2 步、4 步、8 步 UNet loras,ComfyUI 都提供了从文本生成图像的简化工作流程。以下是各个 ComfyUi 工作流程的下载链接:

  • ComfyUI 完整的一步工作流程
  • ComfyUI 完整的 UNet 工作流程
  • ComfyUI LoRA 工作流程

SDXL-LIGHTNING图像生成实例

以下实例是本地搭建的服务器运行SDXL-LIGHTNING模型生成,使用的是 sdxl_lightning_4step.safetensors

Prompt: An Asian firefighter with a rugged jawline rushes through the billowing smoke of an autumn blaze.

Prompt: A close-up of an Asian lady with sunglasses.

Prompt: The 90s, a beautiful woman with a radiant smile and long hair, dressed in summer attire.

Prompt: A majestic lion stands proudly on a rock, overlooking the vast African savannah.

Prompt: A monkey making latte art.

Prompt: In a fantastical scene, a creature with a human head and deer body emanates a green light.

Prompt: A delicate porcelain teacup sits on a saucer, its surface adorned with intricate blue patterns.

Prompt: A pickup truck going up a mountain switchback.

Prompt: A tanned woman, dressed in sportswear and sunglasses, climbing a peak with a group during the summer.

Prompt: A dolphin leaps through the waves, set against a backdrop of bright blues and teal hues.

Prompt: A boy jumping off a spaceship.

上手实操视频

本视频是在自己本地搭建的服务器上运行,GPU是NVIDIA RTX-4090。视频未作加速,可以看到,生成图片的速度还是非常快的。

字节跳动SDXL-Lightning文生图模型使用演示

结论

借助 SDXL-Lightning,字节跳动在文本到图像合成方面取得了重大进步。经过 LoRA 训练的模型进一步扩展了即插即用模块的可用性。然而,与其他生成模型一样,传播错误信息或不当内容也存在滥用风险。为了减轻这些担忧,负责任和道德的发展实践是必要的。但总的来说,像 SDXL-Lightning 这样的模型体现了人工智能在计算创造力方面的巨大潜力。其方法也为扩散模型蒸馏研究提供了新的方向。有关更多技术细节,请访问项目 arXiV 论文。

作者个人Blog文章地址:字节跳动的 SDXL-LIGHTNING : 体验飞一般的文生图 - HY's Blog

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/534974.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue项目因内存溢出启动报错

前端能正常启动,但只要一改动就报错启动出错。 解决办法: 安装依赖 npm install cross-env increase-memory-limit 然后再做两件事:在node 在package.json 里的 script 里进行配置 LIMIT是你想分配的内存大小,这里的8192单位…

基于最小二乘递推算法的系统参数辨识matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 5.完整程序 1.程序功能描述 基于最小二乘递推算法的系统参数辨识。对系统的参数a1,b1,a2,b2分别进行估计,计算估计误差以及估计收敛曲线&#…

人力资源管理软件好处:提升效率利器 !为什么选择合适软件很重要

高效运用合适的人力资源管理软件对企业发展大有裨益,下面我将详解运用适宜的人力资源管理软件对企业发展有什么好处,以及企业挑选适宜的人力资源软件应考虑的关键步骤。 一.使用合适的人力资源管理软件好处分析 招聘流程的优化 通过人力资…

Python常用图片数据方法

文章目录 1. 常用图片数据类型2. 图片的显示2.1 plt.imshow()2.2 使用 turtle 来绘制图片 3.图片ndarray数据的常用切片操作使用 cv2 来读取图片打印数据R G B 通道的获取BGR 转成 RGBcv2 不支持中文路径的解决方法 4 PIL.Image 转成 QImage 或 QPixmap 1. 常用图片数据类型 使…

基于Redis实现分布式锁、限流操作(基于SpringBoot)的实现

基于Redis实现分布式锁、限流操作——基于SpringBoot实现 本文总结了一种利用Redis实现分布式锁、限流的较优雅的实现方式本文原理介绍较为通俗,希望能帮到有需要的人本文的demo地址:https://gitee.com/rederxu/lock_distributed.git 一、本文基本实现…

迪杰斯特拉算法 代码

参考链接: 【路径规划】全局路径规划算法——Dijkstra算法(含python实现 | c实现)-CSDN博客 算法图解: 代码 def dijkstra(matrix, source):"""迪杰斯特拉算法实现Args:matrix (_type_): 用邻接矩阵表示带权图s…

SpringBoot(源码解析 + 实现底层机制)

文章目录 1.搭建SpringBoot底层机制开发环境1.创建maven项目2.使用Git管理项目(可以略过)1.创建一个github存储库2.克隆到本地,复制文件夹的内容3.粘贴到idea项目文件夹,将其作为本地仓库与远程仓库关联 3.pom.xml 引入父工程和场…

AI壁纸号一周增加上千粉丝,轻松变现的成功案例分享

前言 随着AI绘画技术的发展,传统的互联网副业壁纸号在新的技术加持下迎来了第二春。本文将分享一位壁纸号创作者的成功案例,并为大家提供创作门槛和硬件要求等相关信息。 该项目的创作门槛极低,基本上可以由AI完成内容创作。不过&#xff0…

LM358P/LM358DR/LM358DT/LM358DR2G运算放大器中文资料PDF数据手册引脚图功能

产品概述: LM358B 和 LM2904B 器件是行业标准运算放大器 LM358 和 LM2904 的下一代版本,其中包括两个高压 (36V) 运算放大器。这些器件为成本敏感型应用提供了卓越的价值,其特性包括低偏移(300V,典型值)、…

C++11新特性【右值引用】

文章目录 1. 什么是左值2. 什么是右值3. 左值引用4. 左值引用使用场景5. 右值引用6. 右值引用使用场景6.1 场景16.2 场景2 7. 完美转发 1. 什么是左值 左值不能根据字面意思来理解,不是说在左边的就是左值,例如: int main() {int a 0;int …

Windows11安装NodeJS18并配置环境变量

从官网下载,或者从百度网盘下载 解压下载的zip包: 重命名为nodejs: 在nodejs中添加cache和global两个目录: 将nodejs和nodejs\global添加到环境变量: 打开终端,输入: node -v接着配置…

高效备考2024年AMC10:吃透2000-2023年1250道真题(限时免费送)

我们今天继续来随机看5道AMC10真题,以及详细解析,这些题目来自1250道完整的官方历年AMC10真题库。通过系统研究和吃透AMC10的历年真题,参加AMC10的竞赛就能拿到好名次。 即使不参加AMC10竞赛,初中和高中数学一定会学得比较轻松、…