Stable Diffusion V3测评

1.引言

3月5号,Stability AI发布了介绍Stable Diffusion V3的研究论文,链接地址:戳我
在这里插入图片描述

这是目前他们发布的最先进、功能最强大的图像生成器,与一年多前发布的令人印象深刻的 Stable Diffusion V2.1 相比有了大幅升级。SD3所带来的新功能如下:支持文本渲染、性能更优、更好的图像生成质量。

外网有博客尝试把SD3 生成的图像与两款最流行、功能最强大的人工智能图像生成器Midjourney V6Dall-E 3 做了比较,这里对测评结果进行了相应的转述。

2.测评一

测试一的文本提示词如下:

Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat

一张红色球体位于蓝色立方体之上的照片。后面是一个绿色三角形,右边是一只狗,左边是一只猫

我们先来看下SD3的生成效果:
在这里插入图片描述

让人眼前一亮的是猫和狗脖子上的绿色色调。看来 SD3 能够理解环境并模拟光的反射。

相比之下,Midjourney V6Dall-E 3 的图像虽然给人留下了深刻印象,但却在不同方面有所欠缺。二者根据上述提示词所生成的图像分别如下:

在这里插入图片描述
在这里插入图片描述

对比上述结果,Midjourney V6 奇怪地将动物放在蓝色方块上,而 Dall-E 3 的结果则令人费解,文不对题。在这一轮比赛中,SD3 以实际符合提示要求而获得第一名。

3.测评二

实验二的文本提示词如下所示:

Resting on the kitchen table is an embroidered cloth with the text ‘good night’ and an embroidered baby tiger. Next to the cloth there is a lit candle. The lighting is dim and dramatic

灶台上放着一块刺绣布,上面写着 "晚安 "和一只刺绣小老虎。布的旁边有一支点燃的蜡烛。灯光昏暗而富有戏剧性

按照惯例,我们先来看下SD3的表现:

在这里插入图片描述

这张特写照片非常漂亮。我喜欢它将边缘模糊化,而将重点放在老虎和文字上。刺绣的细节也非常棒。大家几乎可以感觉到针脚的刮擦纹理,以及随着针脚变化所带来的模糊效果。

接下来我们看下竞争对手的效果,依次为MidjourneyDall-E3的效果:
在这里插入图片描述
在这里插入图片描述

Midjourney 一如所料,采用了标志性的暗色调和精准的灯光。Dall-E 3在这方面也做得很好,尽管他们都增加了一些提示中没有的其他元素。

个人看法,SD3严格遵守了提示词的要求,所以这一轮测评中它是赢家…不过, Midjourney 的艺术诠释也很让人着迷。

4.测评三

实验三的文本提示词如下所示:

Photo of an 90’s desktop computer on a work desk, on the computer screen it says “welcome”. On the wall in the background we see beautiful graffiti with the text “SD3” very large on the wall.

办公桌上 90 年代台式电脑的照片,电脑屏幕上写着 “欢迎”。背景墙上有美丽的涂鸦,"SD3 "字样非常醒目。

首先,我们先来看下SD3的表现:
在这里插入图片描述

巨大的文字与背景融合得天衣无缝。注意字体的一致性。看起来就像是直接从 Photoshop 中生成的插图。

现在,让我们看看 Midjourney Dall-E 3 的表现:

在这里插入图片描述
在这里插入图片描述

就风格和细节而言,Midjourney很容易入选。但提示要求在墙上写很大的文字,而Midjourney在细节上没有做到这一点。因此,就连贯性而言,SD3 是最佳选择。Dall-E 3 的结果相对逊色不少。

5.总结

从测试图像来看,SD3 显然在文本生成和提示词连贯性方面表现出色,可以说超越了其强大的竞争对手。不过,就图像质量和风格而言,我仍然认为 Midjourney在一些场景下也不容小觑。 但是,与竞争对手不同,Stable Diffusion 一直是开源的,完全免费!这意味着大家很快就能下载 SD3 并在本地免费运行。但这也有一个巨大的弊端,那就是可能会引发严重的社会伦理问题。试想一下,更令人难以区分的深度伪造图像和视频的危害性有多大。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/518767.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

TikTok矩阵获客软件的核心源代码是什么?

随着互联网的不断发展,社交媒体已成为企业获客的重要渠道之一,在众多的社交媒体平台中,TikTok凭借其庞大的用户群体和活跃的社交氛围,成为了众多企业竞相争夺的营销高地。 在这样的背景下,TikTok矩阵获客软件应运而生…

mysql bug( InnoDB: Error number 22),表突然不能读取

mysql bug( InnoDB: Error number 22),表突然不能读取 bug最开始的bug:表突然不能读取关闭mysql容器,再次重启失败 解决方案不重建容器的几种可能措施重建容器重建如果懒得打命令或者忘记命令可能的run bug&#xff1a…

【重制版】WSDM 2024 2023时空时序论文总结

🌟【紧跟前沿】“时空探索之旅”与你一起探索时空奥秘!🚀 欢迎大家关注时空探索之旅 WSDM 2024于2024年3月4日-3月8日在墨西哥梅里达(Mrida, Mxico)正在举行。目前官网已经放出了所有被录用论文的表单(链接…

监测数据计算与换算:确保工程安全的关键步骤

在工程项目中,监测数据的计算与换算是一项至关重要的工作,它直接关系到工程的安全与稳定。本文将从确定基准值、数据计算与换算、异常值处理以及数据存储等方面,探讨监测数据计算与换算的主要工作内容。 添加图片注释,不超过 140 …

因果学习篇(2)-Causal Attention for Vision-Language Tasks(文献阅读)

Causal Attention for Vision-Language Tasks 引言 这篇论文是南洋理工大学和澳大利亚莫纳什大学联合发表自2021年的CVPR顶会上的一篇文献,在当前流行的注意力机制中增加了因果推理算法,提出了一种新的注意力机制:因果注意力(CATT)&#xff…

[linux]shell脚本语言:变量、测试、控制语句以及函数的全面详解

一、shell的概述 1、shell本质是脚本文件:完成批处理。 shell脚本是一种脚本语言,我们只需使用任意文本编辑器,按照语法编写相应程序,增加可执行权限,即可在安装shell命令解释器的环境下执行。shell 脚本主要用于帮助开…

根据标签出现的频次渲染不同大小的圆和文字,圆随机摆放且相互之间不重叠

效果图: 按每个标签出现的频次大小渲染出不同比例大小的圆,渲染的圆的宽度区间为 [40, 160] ,其中的文字的大小区间为 [12, 30] ,圆的位置随机摆放且不重叠。 根据已知条件可得出,标签中频次最高的对应圆的宽度(直径…

YOLOSHOW - YOLOv5 / YOLOv7 / YOLOv8 / YOLOv9 基于 Pyside6 的图形化界面

YOLOSHOW 是一个基于 PySide6(Qt for Python)开发的图形化界面应用程序,主要用于集成和可视化YOLO系列(包括但不限于YOLOv5、YOLOv7、YOLOv8、YOLOv9)的目标检测模型。YOLOSHOW 提供了一个用户友好的交互界面&#xff…

我们是如何测试人工智能产品的

在当今数字化时代,人工智能(AI)技术已经成为我们生活中不可或缺的一部分。然而,要构建出可信赖的AI系统并非易事。这需要我们不仅深入理解人工智能的核心原理,还需要将这些理论知识应用到实际场景中。 为了帮助大家系…

大型c++项目在linux下如何调试?

大型c项目在linux下如何调试? 在开始前我有一些资料,是我根据网友给的问题精心整理了一份「Linux 的资料从专业入门到高级教程」, 点个关注在评论区回复“888”之后私信回复“888”,全部无偿共享给大家!!&#xff01…

Qt+Opencv实现视频二维码检测

编译器:Qt 5.12.2Visual Studio 2015 视觉库:OpenCV 4.5.5 能够加载MP4格式视频、读取、定位二维码并输出与反馈信息的软件 需要演示Demo可私信

Sui RFP两个提案正在悬赏Grant,4月1日截止速来申请

项目1:智能合约模板市场 概述 创建一个供开发人员购买或提供智能合约模板的市场。针对这样一个特定用户群体,制定支持所需动态的激励机制至关重要。 问题描述 随着众多区块链使用EVM,这些生态中的开发人员受益于各种应用程序和智能合约示…