Stable Diffusion 3 发布及其重大改进

1. 引言

就在 OpenAI 发布可以生成令人瞠目的视频的 Sora 和谷歌披露支持多达 150 万个Token上下文的 Gemini 1.5 的几天后,Stability AI 最近展示了 Stable Diffusion 3 的预览版。
在这里插入图片描述

闲话少说,我们快来看看吧!

2. 什么是Stable Diffusion 3?

Stable Diffusion 3 Stability AI 最新推出的功能最强大的文本到图像生成的模型。它在处理多文本提示、图像质量甚至文本渲染能力方面都有重大的改进。

目前,该模型套件的参数量从 800M 到 8B 不等。它结合了扩散transformer结构(类似于Sora中的结构)和Flow Matching。

3. Diffusion Transformer Architecture

Diffusion Transformer(DiT)架构代表了一类融合了Transformer技术的新型扩散模型。与通常使用卷积 U-Net 主干网的传统扩散模型不同,DiT 采用Transformer结构对图像的潜在特征表示进行操作。DiT的网络结构如下:
在这里插入图片描述
事实证明,这种架构对于ImageNet等大型数据集上的基于类别条件图像生成任务特别有效,DiTs 在图像质量和生成模型性能方面树立了新的标杆。

4. Flow Matching

Flow Matching (FM)是 一种全新的、无需模拟的连续归一化流量(CNFs)的训练方法,它能以前所未有的规模训练 CNFsFM 的工作原理是对与高斯概率路径(包括扩散路径)兼容的固定条件概率路径向量场进行回归。更多细节,可以读取官方论文。

在这里插入图片描述

这项技术不仅使扩散模型的训练更加稳健,还为使用非扩散概率路径的CNF 进行更快的训练、采样和更好的泛化铺平了道路。

5. SD3新功能

以下是Stable Diffusion 3带来的主要改进:

  • 支持文本渲染
  • 性能提升
  • 多目标提示
  • 更好的图像质量

上述这些改进中,最令人兴奋的功能是它能够渲染文本,类似于 openAI Dall-E 3 和谷歌的Imagen 2Emad Mostaque作为Stability AI的CEO一直在分享使用SD 3 生成的图像,以下是我最喜欢的一些:

Prompt: “Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat”
提示:“一张红色球体放在蓝色立方体上面的照片。后面是一个绿色三角形,右边是一只狗,左边是一只猫”。

在这里插入图片描述
我觉得这张照片有趣的一点是,动物的白色皮毛上有微妙的绿色。不确认的是模型是否可以从训练数据中的绿幕电影场景照片中学到了这种效果。

Prompt: “cinematic photo of a red apple on a table in a classroom, on the blackboard are the words “go big or go home” written in chalk”
提示:"电影照片,教室的桌子上放着一个红苹果,黑板上用粉笔写着 "要么大干,要么回家 “的字样”

在这里插入图片描述

6. 效果对比

我快速比较了 SD3 和 OpenAI 的Dall-E 3生成的图像的效果,这里我使用了SD3官方博客中的提示词。

Prompt: “Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says “Stable Diffusion 3” made out of colorful energy”
提示:“史诗般的动漫作品,一个巫师在夜晚的山顶上向黑暗的天空施放宇宙咒语,咒语上写着 “稳定扩散 3”,由五彩缤纷的能量组成”

在这里插入图片描述
在这里插入图片描述
老实说,我很惊讶 Dall-E 3 在这个提示下一再拒绝呈现文本。自己去试试吧。

7. 总结

本文重点介绍了SD3带来的新的改进,在此说明下,目前SD3还为对公众开放,但是大家可以通过注册来获得Discord服务器的邀请。预览版的目的是提高其质量和安全性,就像其他稳定的扩散版本一样。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/491226.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

dolphinscheduler集群部署教程

文章目录 前言一、架构规划二、配置集群免密登录1. 配置root用户集群免密登录1.1 hadoop101节点操作1.2 hadoop102节点操作1.3 hadoop103节点操作 2. 创建用户2.1 hadoop101节点操作2.2 hadoop102节点操作2.3 hadoop103节点操作 三、安装准备1. 安装条件2. 安装jdk3. 安装MySQL…

一个支持将Html页面转为PDF的.Net开源项目

推荐一个可以将Html页面转为PDF的开源项目。 01 项目简介 这是一个基于.Net开发的开源项目,本质是用 Webkit 引擎将 HTML 页面转换为 PDF,可以用在控制台、 Web 应用程序和 Web API中。 02 使用示例 1、创建转化器 //同步转化器 var converter new…

React18源码: Fiber树的初次创建过程图文详解

fiber树构造(初次创建) fiber树构造的2种情况: 1.初次创建 在React应用首次启动时,界面还没有渲染此时并不会进入对比过程,相当于直接构造一棵全新的树 2.对比更新 React应用启动后,界面已经渲染如果再次发…

python 3.11中安装sympy(符号工具包)

1.python环境: 2.安装遇到问题: … 3.升级pip cmd命令行中,执行如下命令: python.exe -m pip installl --upgrade pip 4.再次安装sympy cmd命令行中,执行如下命令: pip install sympy 5.简单应用 对…

Stable-diffusion安装时Can‘t load tokenizer for ‘openai/clip-vit-large-patch14‘问题解决

Can’t load tokenizer for openai/clip-vit-large-patch14’问题解决. 如果你在安装stable-diffusion的时候遇到了这个问题,可以下载本博客的绑定资源,然后修改项目中的文件地址就可以了。 例如报错: 这是因为hugginface现在被墙了&#…

力扣LCR 140. 训练计划 II(顺序遍历,快慢指针)

Problem: LCR 140. 训练计划 II 文章目录 题目描述思路复杂度Code 题目描述 思路 思路1:顺序遍历 欲返回倒数第cnt个节点则需要顺序遍历到len-cnt(其中len为链表的长度) 思路2:快慢指针 让一个快指针fast指向cnt 1个节点&#x…

在 where子句中使用子查询(二)

目录 ANY ANY :功能上与 IN 是没有任何区别的 >ANY :比子查询返回的最小值要大 ALL >AL :比子查询返回的最大值要大 EXISTS() 判断 NOT EXISTS Oracle从入门到总裁:https://blog.csdn.net/weixin_67859959/article/details/135209…

zookeeper快速上手

文章目录 1. docker安装zookeeper2. zookeeper基本使用(Linux)新增结点查看命令修改命令删除命令其他命令 3. zookeeper ACL(Linux)ACL 命令行ACL 构成ACL 特性world授权模式ip授权模式auth模式digest授权模式 4. IDEA操作Zookeeper连接zookeeper创建结点…

推荐Miaoo朋友圈程序全开源版源码

Miaoo朋友圈的全开源程序源码提供了一套完整的解决方案,允许用户在前台轻松发布图文、视频和音乐内容。同时,用户可以设置地理位置信息,或者选择自定义位置。此外,系统支持将发布的内容设置为广告模式,并通过站内消息或…

来看大厂如何设计运营后台系统的?

0 背景 重运营的应用。对于App里的顶导航、我的页面、弹窗等,需要根据模式、版本、平台、语言、渠道等不同的维度进行运营管理。随着业务快速发展,版本快速迭代,如何: 保持运营资源能够被高效、稳定和灵活地配置高效稳定的为新的…

pytorch数学运算

目录 1. pytorch的数学运算包括2. 基本运算3. matmul4. power sqrt rsqrt5. exp log6. 近似值7. clamp 1. pytorch的数学运算包括 ▪Add/minus/multiply/divide ▪Matmul ▪Pow ▪Sqrt/rsqrt ▪Round 2. 基本运算 、-、*、/ 也可以使用函数add sub mul div 3. matmul 矩阵…

Qt Android sdk配置报错解决

使用的jdk8总是失败,报错command tools run以及platform sdk等问题。后来主要是设置jdk版本为17,就配置生效了。Android sdk路径可以选用Android Studio自带的,但是也要在Qt中点击“设置SDK”按钮做必要的下载更新等。 编译器这里会自动检测到…