【当前全网最详细】WebUI中使用Instant_ID来控制生成对象面部的用法-编程知识

【当前全网最详细】WebUI中使用Instant_ID来控制生成对象面部的用法

news/2025/1/20 3:34:52/文章来源:https://blog.csdn.net/JuMengXiaoKeTang/article/details/136591310

🎈为什么有这篇文章

中文网络上或者B站很多UP，在讲述WebUI中使用这个controlnet来换脸的时候，要么讲的过于复杂，要么就是没有讲清楚，所以这里整理下详细的使用方法，并记录下生成的内容。

如果懒得看文字可以看同款视频哈：

【AI写真Instant_ID全网最详细教程Stable Diffusion WebUI免费生产力】

🧵准备工作

首先，需要在将webui的本体升级到1.8.0或者更新的版本，这里保证与controlnet的兼容性；

其次，升级controlnet版本到3月6号以后的版本；

升级完成后，controlnet的版本为1.1.441（或者更新的版本应该也可以）。

第三，下载预处理器并放在controlnet的预处理器文件夹中；

预处理器下载地址：

https://huggingface.co/DIAMONIK7777/antelopev2/tree/main

如果你的网络不好可以到我的网盘下载：https://pan.quark.cn/s/34ac9d88ad7c

本地预处理器地址：

第四，下载controlnet模型到本地的controlnet模型文件夹中；

模型下载地址：

ipadapter model
ControlNet model

如果你的网络不好可以到我的网盘下载：https://pan.quark.cn/s/34ac9d88ad7c
然后放在本地的controlnet的模型文件夹下：

🧨图像生成

接下来就是具体的使用方法了。

Instant ID使用ControlNet和IP-Adapter的组合来控制扩散过程中的面部特征。Instant ID 的一项独特设计是，它将来自 ip-adapter识别到的面部特征信息，作为交叉输入传递到 ControlNet的unet网络部分。而如果不使用这个模型，ControlNet的unet网络的cross attention（交叉注意力）输入是提示的文本嵌入。

在webui中具体使用Instant_ID这个controlnet的时候，跟其他的controlnet使用方法不同的是，他需要使用两个模型搭配才能生效，也就是要开启两个controlnet。

并且，两个模型的顺序不能出错。

第一个Controlnet设置：

这里上传的图像是你要参考的脸部特征的信息，也就是生成的最终人物像谁。

采样器是embedding结尾的，模型是一个特定的ip-adapter模型，这俩组合就是提取人物面部特征的。

需要注意的是，官方并没有强制要求选择“更偏向ControlNet”，但是我测试下来，如果不选择这个，生成的图像分辨率会相对低一些，所以建议这么设置。

当然，你可以适当降低控制权重，一定程度上也能提升生成的图像的分辨率。

第二个Controlnet设置：

这里也需要上传一张图像，这张图像是生成图像的人物的面部参考信息。这张图像中人物的姿势和面部表情特征会被参考。

这里的预处理器选择的keypoints结尾的预处理器模型，模型是instant_id_sdxl模型，对，这里仅仅支持sdxl的大模型（也支持sdxl_turbo模型），官方并没有支持sd1.5或者其他的版本。

这两个模型搭配起来，会控制最终生成的图像中，人物面部的占比，面部朝向，面部表情等等面部信息，姿态信息，从实验结果来看，一定程度上会参考，但参考的不多。

这里仍然勾选了“更偏向Controlnet”，也是由于勾选之后，一定程度上可以提升生成图像的分辨率。

至于“完美像素模式”，从实测结果看，勾选不勾选影响并不是很大。

接下来是基础的文生图设置部分；

这里有以下几个重点：

第一，模型必须选择sdxl或者sdxl turbo模型；

第二，CFG Scale这里，也就是提示词引导系数，官方建议是4~5之间，但是实测下来，这个参数的设定其实与你的模型非常相关，如果你是标准的sdxl微调模型，那么这个值在3~4之间可能会更好，否则生成的图像可能会比较模型，如果你的模型是sdxl turbo模型，那么，这个值甚至可以调整到1~1.5，效果也还不错。

第三，迭代步数部分，并不需要太高步数，步数太高反而容易崩，如果是标准模型，20步就差不多，如果是sdxl turbo模型，就按照turbo类通用的7~9步就好了；

第四，宽度和高度，众所周知，1024x1024是默认的最佳分辨率，但是这里如果是1024x1024的话，（估计是原作者训练集的问题），容易生成带水印的图像，所以大家可以稍微错开这个分辨率，比如说使用768x1024等，可以有效规避这个水印的问题；

👑生成效果

面部信息使用路人甲同学（如果用某些名人的话，效果会更好，但是由于都懂的原因，会根本发不出来），面部位置用了狼叔的一张剧照；

（仅作技术免费交流学习示意，如果有侵权，我会删掉）

生成的图像示意：

貌似，效果还不错？

🎇加速技巧

s你会发现使用这个Instant_ID的时候，每次都会加载模型、卸载模型，这样就会降低生成的速度从而影响创作者的心情。

如果你的显卡显存较大（12G以上），可以试试让controlnet支持缓存两个模型。

操作方法如下：

第一：进入webui的设置页面；

第二，找到controlnet选项；

第三，在右侧找到模型缓存数量选项，然后拉到2；（默认为1，如果你之前调整过，那就不用再调整了）

第四，重新启动webui；

这样你再使用Instant_ID的时候，速度就会变得很快乐，如果是4090，使用默认的sdxl模型，大概速度在5秒左右可以生成一张1024x768的图像；（供参考）

当然，这个也是支持使用高分辨率修复的，只是花的时间会略微长一点。

🎉写在最后~

去年的时候写了两门比较基础的Stable Diffuison WebUI的基础文字课程，大家如果喜欢的话，可以按需购买，在这里首先感谢各位老板的支持和厚爱~

✨StableDiffusion系统基础课（适合啥也不会的朋友，但是得有块Nvidia显卡）：

https://blog.csdn.net/jumengxiaoketang/category_12477471.html

🎆综合案例课程（适合有一点基础的朋友）：

https://blog.csdn.net/jumengxiaoketang/category_12526584.html

这里是聚梦小课堂，就算不买课也没关系，点个关注，交个朋友😄

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/539026.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Pretrain-finetune、Prompting、Instruct-tuning训练方法的区别

Pretrain-finetune、Prompting、Instruct-tuning训练方法的区别

来自：【多模态】28、LLaVA 第一版 | Visual Instruction Tuning 多模态模型的指令微调_多模态指令跟随数据-CSDN博客几种模型训练方法的区别： 1、Pretrain-finetune：先在大量数据集上做预训练，然后针对某个子任务做 finetune 2…

阅读更多...

解析找不到msvcr120.dll无法继续执行此代码的多种修复方法

解析找不到msvcr120.dll无法继续执行此代码的多种修复方法

在计算机使用过程中，我们经常会遇到一些错误提示，其中之一就是“msvcr120.dll丢失”。这个错误通常会导致某些程序无法正常运行。为了解决这个问题，本文将介绍5种修复msvcr120.dll丢失的方法。一，msvcr120.dll丢失会出现哪些问题…

阅读更多...

基于springboot+vue实现乌鲁木齐南山冰雪旅游服务网管理系统项目【项目源码+论文说明】

基于springboot+vue实现乌鲁木齐南山冰雪旅游服务网管理系统项目【项目源码+论文说明】

基于springbootvue实现南山冰雪旅游服务网演示摘要随着2022年北京冬奥会的成功举办，在冬天进行冰雪运动已经逐渐流行起来，人们慢慢享受到了冰雪活动给大家带来的欢乐，除此之外人们的身体素质也可以得到提升。虽然已经有一部分人可以接受并…

阅读更多...

鸿蒙Harmony应用开发—ArkTS声明式开发（容器组件：GridCol）

鸿蒙Harmony应用开发—ArkTS声明式开发（容器组件：GridCol）

栅格子组件，必须作为栅格容器组件(GridRow)的子组件使用。说明： 该组件从API Version 9开始支持。后续版本如有新增内容，则采用上角标单独标记该内容的起始版本。子组件可以包含单个子组件。接口 GridCol(option?:{span?: number | …

阅读更多...

NVIDIA vGPU三种授权方式（个人玩家版）

NVIDIA vGPU三种授权方式（个人玩家版）

NVIDIA vGPU三种授权方式（个人玩家版）旧版本的License Server搭建（比较推荐）说明搭建所需文件创建一个Linux虚拟机（我创建的是Ubuntu 18.04.06）修改虚拟机的MAC地址关闭虚拟机的时间同步及修改系统时间安装java安装Apache Tomcat安装许可证服务器软件上传授权文件新版本…

阅读更多...

通过NFS 实现windows共享linux目录

通过NFS 实现windows共享linux目录

一、配置WIndows 1.进入程序和功能 2.勾选NFS服务，安装客户端二、安装NFS Service 在ubuntu 1.查看apt源是否存在nfs服务端安装包 sudo apt-cache madison nfs-kernel-server 2. 安装nfs-kernel-server sudo apt install nfs-kernel-server 3.建立共享目录&…

阅读更多...

Selenium 自动化 —— 入门和 Hello World 实例

Selenium 自动化 —— 入门和 Hello World 实例

Selenium 是什么 Selenium 是一个用于自动化网页浏览器操作的工具，它支持多种浏览器和多种操作系统。主要用于测试 web 应用程序的功能，也可用于执行一些基本的浏览器操作任务，例如自动化表单填写、网页导航等。 Selenium 是一个开源项目&a…

阅读更多...

string接口[小白理解篇]

string接口[小白理解篇]

作文目的本文是为了加深对string底层函数的一点理解(请勿与底层源码混为一谈)，下面从模拟与注意项出发。一.string 功能化模拟 1.迭代器模拟迭代器，为实现简单便理解故使用指针的方式(非说明迭代器使用该方法实现)。其中的begin、end都是为了给迭代…

阅读更多...

WPF —— Calendar日历控件详解

WPF —— Calendar日历控件详解

1： Calendar的简介日历控件用于创建可视日历，让用户选择日期并在选择日期时触发事件。 DisplayMode 用来调整日历显示模式，分为Month、Year 和Decade 三种。如下是None 2：Calendar控件常用的属性 SelectionMode 选中日历的类…

阅读更多...

航班时间刷题笔记

航班时间刷题笔记

思路参考大佬个人空间 - AcWing 飞行时间推导首先每组数据两行一行有两个数据第一行第一个给出的是去的时候从A地出发到B地的起飞时间第一行第二个数据是去的时候在B地降落的时间第二行的第一个数据是回程时到A地的降落时间第二行第二个数据时回程时在B地…

阅读更多...

如何关闭 Visual Studio 双击异常高亮

如何关闭 Visual Studio 双击异常高亮

[问题描述]： 最近 Visual Studio 更新后，双击选中关键字快要亮瞎我的眼睛了 👀👀 [解决方法]： 摸索了一下，找到了关闭的方法：工具 → 选项 → 文本编辑器 → 常规，然后取消勾选 sel…

阅读更多...

计算机视觉研究院 | EdgeYOLO：边缘设备上实时运行的目标检测器及Pytorch实现

计算机视觉研究院 | EdgeYOLO：边缘设备上实时运行的目标检测器及Pytorch实现

本文来源公众号“计算机视觉研究院”，仅用于学术分享，侵权删，干货满满。原文链接：EdgeYOLO：边缘设备上实时运行的目标检测器及Pytorch实现代码地址：https://github.com/LSH9832/edgeyolo 今天分享的研究…

阅读更多...

推荐文章

最新文章