[Paper Reading] ControlNet: Adding Conditional Control to Text-to-Image Diffusion Models

news/2024/11/17 7:10:46/文章来源:https://www.cnblogs.com/fariver/p/18377021

ControlNet: Adding Conditional Control to Text-to-Image Diffusion Models

link
时间:23.11
机构:Standford

TL;DR

提出ControlNet算法模型,用来给一个预训练好的text2image的diffusion model增加空间条件控制信息。作者尝试使用5w-1M的edges/depth/segmentation/pose等信息训练ControlNet,都能得到比较好的生成效果。为下游文生图使用者提供了极大的便利。

Method

  • ZeroConv
    FreezeNet与ControlNet模型是在Decoder部分融合特征的,ControlNet Decoder都是从ZeroConv初始化的,根据下面公式来看,从ControlNet连入FreezeNet的特征一开始是全零所以融合到Freeze模型上不影响原始效果。
  • 这么设计的好处:
    效果方面:
    a) 保留了原始Encoder的参数。b) Decoder是ZeroConv相当于让ControlNet逐步学习参与进来。
    性能方面:FreezeNet不需要backward,提升速度与降低显存

As tested on a single NVIDIA A100 PCIE 40GB, optimizing Stable Diffusion with Control- Net requires only about 23% more GPU memory and 34% more time in each training iteration, compared to optimizing Stable Diffusion without ControlNet.

  • Condition \(c_f\)
    将depth/pose/edge图,通过4层stride=2的可学习卷积抽取出的特征

  • Q:ZeroConv如何反传梯度?
    根据\(y=wx + b\),只要x不为0(输入x是从ControlNet Encoder抽取出来的特征),就可以得到y反传到w的非0梯度。

Experiment

在6133 iters的时候突然收敛了

可以用来生成数据

更多可视化样本

总结与发散

相关链接

https://zhuanlan.zhihu.com/p/660924126

资料查询

折叠Title FromChatGPT(提示词:XXX)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/789831.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

结点电压法

如图,流过 1Ω电阻的电流是 (1+1/4)/(1+1/4+1/4)

【SpringBoot】分析 SpringBoot 中的扩展点

1 前言 SpringBoot 它给我们留了很多的扩展点,这节我们就看看都有哪些(有的扩展点是基于 Spring 的,有的我就不具体强调到底是 SpringBoot 还是 Spring 的噢)。 另外每一种扩展点我们都从两个方面来看: 入口时机:入口就是 SpringBoot 解析或者寻找你自定义的类的时机 执…

智能选择:如何筛选合适项目管理软件?

国内外主流的 10 款项目管理系统对比:PingCode、Worktile、Teambition、明道云、泛微E-cology、Asana、Trello、Monday.com、ClickUp、Wrike。在项目管理的世界里,选择合适的管理工具似乎是一个令人头疼的问题。你是否经常在众多选项中感到迷茫,不知道哪一个系统能真正提升你…

【整理】【信息收集】web渗透测试

一、WAF探测1.1 什么是WAF1.2 WAF常见的部署方式:1.3 WAF的作用1.4 如何触发waf1.5 WAF的分类1.6 如何探测WAF二、操作系统识别三、Git信息收集3.1 Git信息泄露原理3.2 github搜索技巧3.3 Git信息泄露利用方式原创 LULU 红队蓝军一、WAF探测 1.1 什么是WAF Web应用程序防火墙(…

RouteLLM:通过智能查询路由优化 AI 响应

在当今人工智能驱动的世界中,优化人工智能的使用至关重要。不同的 AI 系统 在能力和成本上各不相同,因此需要智能管理解决方案。RouteLLM 是一个创新 的框架,旨在动态地将用户查询路由到最合适的 AI 模型,确保成本效益和高质 量的响应。 什么是 RouteLLM? RouteLLM 作为 A…

vue3下拉菜单点击之后缓慢展开与缓慢关闭

利用 max-height 来实现下拉菜单的缓慢展开和关闭效果。通过设置一个固定的 max-height 值以及过渡效果,可以让菜单在展开和关闭时产生动画效果。 <template> <div class="dropdown"><div class="selected" @click="toggleDropdown&q…

我的奇妙屋

我的奇妙屋 实验一角开始发布

管理农业项目必备 10款项目管理软件评估和选择技巧

国内外主流的 10 款农业建设管理系统对比:PingCode、Worktile、建米农业工程项目管理系统、泛普软件的农业项目管理系统、开创云数字农业管理平台、Trimble Ag Software、Agworld、FarmLogs、Granular、Conservis。在管理复杂的农业建设项目时,选择合适的管理系统常常让人头疼…

第三周作业

1、在docker中分别以后台方式和交互方式启动centos,对比启动后的容器状态,实现退出容器也能保持其运行状态。 2、在docker并部署DVWA,要求:DVWA web 端口映射到8082,提供访问截图。3、Mysql练习 (1)创建一个名为"magedu_C10"的数据库; (2)在magedu_C10数据…

任正非署名文章《星光不问赶路人》:没有退路就是胜利之路

华为心声社区以总裁办电子邮件形式,发布了任正非于2020年6月19日的讲话:《星光不问赶路人》,我看了好几遍,热血沸腾。“对未来科学的探索不停步,研发不停步,继续勇往直前。不能以后生存下来了,却看不见未来了。没有明天了,这样的生存是没有意义的。战略研究院要继续扩大…

nss第四页

1、[GDOUCTF 2023]EZ WEB 首先这题查看源码可以看到有个目录访问src这代码的意思就是,如果访问/super-secret-route-nobody-will-guess 的请求方法为put,那么就输出flag 所以就直接抓包然后改请求就行了2、[GDOUCTF 2023]泄露的伪装 这题的话,需要扫描目录访问www.rar,得到…