Stability AI 新发布SDXL Turbo:一款实时文本到图像生成模型

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

关键要点总结:

  1. SDXL Turbo采用了新的蒸馏技术,实现了业界领先的性能,使单步图像生成质量达到前所未有的高度,将所需步骤数从50步减少到仅需1步。
  2. 有关该模型新蒸馏技术的具体技术细节,请参阅我们的研究论文。该技术利用了对抗训练和评分蒸馏的组合。
  3. 目前,该模型的权重和代码可在Hugging Face下载,目前以非商业研究许可发布,仅允许个人非商业使用。

在Stability AI的图像编辑平台Clipdrop上测试SDXL Turbo,体验实时文本到图像生成功能的beta演示。

今天,Stability AI 发布了SDXL Turbo,一种新的文本到图像模式。SDXL Turbo基于一种名为对抗扩散蒸馏(ADD)的新蒸馏技术,该技术使模型能够一步合成图像输出,并在保持高采样保真度的同时生成实时文本到图像输出。对于对技术细节感兴趣的研究人员和爱好者,Stability AI 的研究论文可在此处查看 https://stability.ai/research/adversarial-diffusion-distillation。重要的是要注意,SDXL Turbo目前尚不适用于商业用途。

对抗扩散蒸馏的优势

SDXL Turbo采用了扩散模型技术的新进展,基于SDXL 1.0的基础上进行了迭代,并实现了文本到图像模型的新蒸馏技术:对抗扩散蒸馏。通过结合ADD,SDXL Turbo获得了许多与GANs(生成对抗网络)相同的优势,如单步图像输出,同时避免了其他蒸馏方法中常见的伪影或模糊。详细介绍该模型新蒸馏技术的SDXL Turbo研究论文可在此处查看https://stability.ai/research/adversarial-diffusion-distillation。

与其他扩散模型相比的性能优势

为了选择SDXL Turbo,Stability AI 比较了多种不同的模型变体(StyleGAN-T++、OpenMUSE、IF-XL、SDXL和LCM-XL),使用相同的提示生成输出。然后,人类评估员随机显示两个输出,并被要求选择最符合提示方向的输出。接下来,使用相同的方法完成了图像质量的额外测试。在这些盲测中,SDXL Turbo在单步中就能超过LCM-XL的4步配置,以及仅用4步就能超过SDXL的50步配置。通过这些结果,Stability AI 可以看到SDXL Turbo在显著降低计算需求的同时,无需牺牲图像质量,就超越了最先进的多步模型。

此外,SDXL Turbo还大幅提高了推理速度。在A100上,SDXL Turbo生成512x512图像的时间为207ms(提示编码+单次去噪步骤+解码,fp16),其中67ms由单个UNet前向评估占据。

探索SDXL Turbo与Clipdrop

要测试这款新模型的功能,请访问Stability AI的图像编辑平台Clipdrop https://clipdrop.co/stable-diffusion-turbo,体验SDXL Turbo实时图像生成的beta演示。它兼容大多数浏览器,目前可免费试用。

看看测试

测试

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/231944.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

hugging face下载dataset时候出现You must be authenticated to access it.问题解决

Cannot access gated repo for url https://huggingface.co/tiiuae/falcon-180B/resolve/main/tokenizer_config.json. Repo model tiiuae/falcon-180B is gated. You must be authenticated to access it. 参考https://huggingface.co/docs/huggingface_hub/guides/download …

基于ora2pg迁移Oracle19C到postgreSQL14

📢📢📢📣📣📣 哈喽!大家好,我是【IT邦德】,江湖人称jeames007,10余年DBA及大数据工作经验 一位上进心十足的【大数据领域博主】!😜&am…

7Docker搭建es和kibana

一、安装es 1.拉取镜像 sudo docker pull elasticsearch:7.12.0 elasticsearch:7.12.0:我安装的版本是7.12.0,可以根据实际的情况安装 创建docker容器挂在的目录: sudo mkdir -p /opt/elasticsearch/config sudo mkdir -p /opt/elasticsearch/data s…

WordPress 粘贴图片上传插件

找了很久,发现一款不错的插件,允许我们直接粘贴图片文件并且上传到媒体库。以前的插件上传后媒体库不会显示,这个要显示。 启用后编辑器会有一个图标,如果开启,那么久可以截图后直接粘贴了。 学习资料源代码&#xf…

磁环电感参数计算

磁环电感参数计算 1.什么是电感磁饱和2.电感饱和的原因3.电感饱和带来的影响3.1 感应电动势变化3.2 电感值变化3.3 功率损耗增加3.4 系统稳定性受到影响4.饱和电流计算最近在做DC/DC电源,电感是用磁环绕制的,所以关注一下磁环绕制电感参数的计算,学习学习。 某款磁环参数。 …

本地部署GPT的实战方案

大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法…

纯js实现录屏并保存视频到本地的尝试

前言:先了解下:navigator.mediaDevices,mediaDevices 是 Navigator 只读属性,返回一个 MediaDevices 对象,该对象可提供对相机和麦克风等媒体输入设备的连接访问,也包括屏幕共享。 const media navigator…

华为OD机试 - 园区参观路径(Java JS Python C)

题目描述 园区某部门举办了Family Day,邀请员工及其家属参加; 将公司园区视为一个矩形,起始园区设置在左上角,终点园区设置在右下角; 家属参观园区时,只能向右和向下园区前进,求从起始园区到终点园区会有多少条不同的参观路径。 输入描述 第一行为园区的长和宽; 后…

Expected one result (or null) to be returned by selectOne(), but found: 2

其实这个问题很简单&#xff0c;其实就是实际查询是多个值&#xff0c;但你的接受值是一个单体值&#xff0c;应该用List接才可以 。 向上图只要改成有问题是String接受的&#xff0c;只要改成下图List<String>即可。 ------------------------------------------与正文…

WEB安全之Python

WEB安全之python python-pyc反编译 python类似java一样&#xff0c;存在编译过程&#xff0c;先将源码文件*.py编译成 *.pyc文件&#xff0c;然后通过python解释器执行 生成pyc文件 创建一个py文件随便输入几句代码(1.py) 通过python交互终端 >>>import py_compil…

堆在排序中的应用

堆排序 1、堆排序原理 堆排序是利用到了堆这种数据结构&#xff0c;我们首先回顾一下二叉堆的特性&#xff1a; 最大堆的堆顶是整个堆中的最大元素。最小堆的堆顶是整个堆中的最小元素。 以最大堆为例&#xff0c;如果删除一个最大堆的堆顶&#xff08;并不是完全删除&…

网络安全—小白自学

一、网络安全应该怎么学&#xff1f; 1.计算机基础需要过关 这一步跟网安关系暂时不大&#xff0c;是进入it行业每个人都必须掌握的基础能力。 计算机网络计算机操作系统算法与数据架构数据库 Tips:不用非要钻研至非常精通&#xff0c;可以与学习其他课程同步进行。 2.渗透技…