NeurIPS2024 | 提高专业生产力,让你的AI画作布局可控,360 AI Research开源新模型HiCo

news/2024/11/27 11:17:07/文章来源:https://www.cnblogs.com/wxkang/p/18572016
前言 为了解决这一问题,360人工智能研究院在人工智能顶会NeurIPS2024上提出了布局可控AI绘画模型HiCo,并将于近期开源。基于HiCo模型,使用者可以对生成画面中的不同主体的布局进行自由控制和调整,实现“指哪打哪”的生成效果。

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

本文转载自我爱计算机视觉

仅用于学术分享,若侵权请联系删除

CV方向的准研究生们,未来三年如何度过?

招聘高光谱图像、语义分割、diffusion等方向论文指导老师

AI绘画模型一直以来被概括为“文生图”模型,究其原因,是因为当前的主流图像生成模型基本都只提供了基于文本条件生成图像的能力,各家的AI绘画产品也主要在生成画质和文本理解能力上进行竞争。但对于专业的使用者来说,文本能提供的画面控制能力非常有限,导致当前的AI绘画产品还达不到作为专业生产力工具来使用的标准。

话不多说,先让我们来看一组生成效果(使用者基于不同的矩形框和对应的文本描述,来控制在画面的不同位置生成指定的内容):

接下来是HiCo工作的详细原理解读:

  • 论文标题:HiCo: Hierarchical Controllable Diffusion Model for Layout-to-image Generation
  • 论文链接:
  • 项目主页:

 

1.摘要

布局到图像生成的任务是AIGC领域一项重要研究方向,通常指根据实例对象的文本描述及其空间位置合成目标图像。

现有的方法仍然难以生成复杂的布局,常见的不良情况包括对象丢失、光影不一致、视角冲突、重叠区域的目标交互等。

为了有效地解决这些问题,我们提出了一个层次可控(HiCo)扩散模型,具有对象分离的条件分支结构。

我们的主要观点是通过布局的层次化建模来实现空间分离。我们使用多分支结构来表示层次内容,并将它们聚合到融合模块中。

2.动机

主流的布局可控生成是采用新设计网络结构或特殊的交叉注意力机制,来实现目标的位置可控,然而在复杂场景下这些方法存在目标丢失、指令遵循能力下降、生成图像失真、推理资源消耗过大以及开源社区生态适配等问题。

如何在保证原始扩散模型能力的不变的同时,引入布局子区域的位置可控能力是我们面临的首要挑战。典型的引入外部可控条件进行图像生成的方法,如ControlNet、IP-Adapter等,其外部可控条件不限于人体姿态、关键点、参考图。

为了解决上述挑战,本文提出了层次可控扩散模型,本方法通过权值共享的分支分别提取层次化布局特征,并用融合网络进行精细聚合。

 

3.方法

3.1 模型整体架构

针对上述问题挑战,结合目前扩散模型外部控制条件引入的常用方法,本文提出一种名为HiCo的分层可控扩散模型(Hierarchical Controllable Diffusion Model),用于从布局生成高质量和逼真的图像。HiCo的整体架构如图1所示,包括主干SD基础模型、权重共享的旁支网络HiCo以及融合模块FuseNet。

图1:分层布局可控生成模型HiCo结构

3.2 层次化建模及融合模块

为了兼具扩散模型的能力,同时引入布局可控的能力,研究者提出了HiCo方法。该方法通过层次化建模解耦不同目标的空间布局,并动态整合背景信息和不同前景目标的内容及交互。

朴素的扩散模型的目标函数如下式:

引入外部控制条件的扩散模型目标函数如下式,给定输入图片,通过渐进式扩散加噪到,其中为加噪步数,为文本控制条件,为特定控制条件,θ为可学习的网络来预测不同阶段的噪声。

相对于包含常规控制条件的扩散模型,本方法新增额外的权重共享的HiCo Net来生成全局背景和不同布局区域内容,由于增加了多个不同的控制条件,则训练目标为:

融合模块主要实现对前背景的有效融合,可根据具体的场景选择适合的融合方式,包括平均、求和、掩码加权等。本文采用基于mask融合方式如下式,其中 表示第 个实例的掩码信息, 表示背景区域的掩码信息。

3.3 分层特征可视化

HiCo在整体结构上采用了一种创新的权重共享机制,该机制能够根据文本描述和空间布局信息,分别解耦不同的前景实例和背景图像生成独立的特征,在上采样阶段对这些特性进行了战略性集成。图2展示了四个实例布局的HiCo模型的生成过程。

图2:HiCo模型分层特征的可视化

3.4 训练数据及策略

HiCo模型可以采用不同类型场景的Grounding数据训练来获取相应的布局可控生成能力。本文在开集的细粒度描述数据(GRIT-20M)以及闭集的粗粒度类别数据(COCO)上均进行了实验验证。其中我们对GRIT-20M的子集数据进行清洗筛选出1.2M的训练数据,并构建了细粒度的评估集HiCo-7K。

HiCo结构支持不同版本扩散模型,包括但不限于SD1.5、SDXL、SD3、Flux等。同时我们支持SD模型的快速生成插件或者底模,如LoRA、LCM、SDXL-Lighting等。详细训练及推理细节可参考原文。

 

4.实验评估

4.1 效果评估

细粒度描述定量评估。在细粒度测试集HiCo-7K上,对图片生成质量及布局可控两个维度进行了定量评估。HiCo模型均取得显著的效果,同时不同目标数量的复杂场景图片生成效果也非常理想。

图3:HiCo-7K定性比较。HiCo方法可以生成简单和复杂布局信息的高质量图像。

人工评估。我们采用多轮、多参与者交叉评价的方法,从目标数量、空间位置、全局图像质量等方面对人类偏好进行评价。下表为不同对比方法的人工评估指标,结果表明在空间位置和语义维度方面,HiCo方法优于其他模型。此外,在全局图像质量的细粒度维度上,它的性能接近RealisticVisionV51模型(SDReal),表明尽管增强了可控性,但我们的模型的生成能力仍然是鲁棒和有效的。

4.2 消融实验

本文对HiCo结构、融合策略等进行了一系列消融实验,具体结果可以看下面的表格。

4.3 推理效率

对于推断运行时间和内存使用,我们进行了两个维度比较,详细数据图4。横向比较不同方法的性能差异,我们评估了使用24GB VRAM 3090 GPU在HiCo-7K上直接生成512×512分辨率图像的推断时间和GPU内存使用情况。

HiCo的多分支有两种推理模式:“并行模式”和“串行模式”。为了验证HiCo在对象数量增加时的性能优势,纵向比较HiCo不同推理模式的性能差异,我们评估了在HiCo-7K上生成512×512分辨率图像的推理时间和GPU内存使用情况。结果表明HiCo模型推理方式灵活,在推理耗时和显存占用方面均具有明显优势。

图4:HiCo模型推理性能横纵向对比

 

5.总结与展望

复杂的目标交互和重叠区域的遮挡顺序是HiCo模型乃至布局可控领域对图像生成的重要挑战。HiCo通过将每个对象的位置和外观信息解耦为不同的分支,同时通过具有全局提示的背景分支和融合网络控制它们之间的整体交互,从而实现层次化的生成。

HiCo能够通过融合模块处理重叠区域的复杂相互作用。重叠对象的遮挡顺序也通过文本描述的全局提示指定。但由于缺少相应的遮挡顺序训练数据,成功率远未达到最优。对于目前的HiCo,确实缺乏更明确的遮挡顺序控制机制。

HiCo是一种基于扩散模型,以多分支结构为导向的可控布局生成模型。通过对自然场景中不同粒度的数据进行训练和测试,并进行算法度量评价和主观人为评价,证明了该方法的优越性。然而,仍有进一步改进的潜力,特别是在图像内容编辑和集成多种样式概念方面。通过结合当前可控生成功能,可以提高AI生成艺术品的整体可玩性。

 

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

分享一个CV知识库,上千篇文章、专栏,CV所有资料都在这了

明年毕业,还不知道怎么做毕设的请抓紧机会了

LSKA注意力 | 重新思考和设计大卷积核注意力,性能优于ConvNeXt、SWin、RepLKNet以及VAN

CVPR 2023 | TinyMIM:微软亚洲研究院用知识蒸馏改进小型ViT

ICCV2023|涨点神器!目标检测蒸馏学习新方法,浙大、海康威视等提出

ICCV 2023 Oral | 突破性图像融合与分割研究:全时多模态基准与多交互特征学习

听我说,Transformer它就是个支持向量机

HDRUNet | 深圳先进院董超团队提出带降噪与反量化功能的单帧HDR重建算法

南科大提出ORCTrack | 解决DeepSORT等跟踪方法的遮挡问题,即插即用真的很香

1800亿参数,世界顶级开源大模型Falcon官宣!碾压LLaMA 2,性能直逼GPT-4

SAM-Med2D:打破自然图像与医学图像的领域鸿沟,医疗版 SAM 开源了!

GhostSR|针对图像超分的特征冗余,华为诺亚&北大联合提出GhostSR

Meta推出像素级动作追踪模型,简易版在线可玩 | GitHub 1.4K星

CSUNet | 完美缝合Transformer和CNN,性能达到UNet家族的巅峰!​

AI最全资料汇总 | 基础入门、技术前沿、工业应用、部署框架、实战教程学习

计算机视觉入门1v3辅导班

计算机视觉交流群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/842186.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【开源系列】Faraday : 渗透测试 IDE 和漏洞管理平台

什么是 Faraday ? Faraday 是一个开源的漏洞管理平台,它旨在帮助安全团队有效地管理和协作处理漏洞。Faraday 提供了一个集中的平台,用于收集、分析和报告漏洞信息。它支持多种集成,可以与各种安全工具和扫描器无缝对接,从而提高漏洞管理的效率和准确性。 Faraday 的功能特…

【开源系列】OpenEMR:开源免费的医院管理系统

今天给大家分享一款完全开源的电子病历和医疗管理系统【OpenEMR】 什么是 OpenEMR ? OpenEMR 是一款免费开源的电子健康记录(EHR)和医疗实践管理系统。它提供了全面的医疗信息系统功能,包括患者信息管理、日程安排、处方开具、账单处理、报告生成等。OpenEMR 支持多种平台,…

【windows环境搭建】Windows下安装使用JMETER

一、插件驱动安装1.1 安装JDK环境1.2 安装插件1.3 添加驱动包二、JMeter压测2.1 创建压测线程组2.2 创建JDBC request2.3 创建JDBC Connection Configuration2.4 创建汇总报告2.5 创建查看结果树2.6 创建jp@gc - Transactions per Second(TPS)一、插件驱动安装 1.1 安装JDK环境…

【windows安装教程】Windows下安装使用JMETER

一、插件驱动安装1.1 安装JDK环境1.2 安装插件1.3 添加驱动包二、JMeter压测2.1 创建压测线程组2.2 创建JDBC request2.3 创建JDBC Connection Configuration2.4 创建汇总报告2.5 创建查看结果树2.6 创建jp@gc - Transactions per Second(TPS)一、插件驱动安装 1.1 安装JDK环境…

如何设计好分布式数据库,这个策略很重要(GaussDB)

​ 数据库是应用和计算机的核心组成,试想,如果没有数据库,就像人的大脑没有了记忆一样,信息也得不到共享,那么,对开发者来说,如何设计一款高效易用的数据库至关重要。 GaussDB是企业级分布式数据库,具备分布式强一致、有效降低容灾成本、支持PB级海量数据、智能诊断等优…

[Linux]缓冲区的理解

缓冲区的理解 先来看这段代码 #include <stdio.h> #include <unistd.h> #include <string.h>int main() {//C接口printf("hello printf\n");fprintf(stdout, "hello fprintf\n");fputs("hello fputs\n", stdout);//系统接口co…

Ollama本地部署Qwen2.5 14B(使用docker实现Nvidia GPU支持)

通过docker部署支持Nvidia GPU加速的本地大模型前提条件:已经本地安装好了Ollama。 如果没有安装Ollama或者想部署其他的模型或者不想使用docker,,可以参考之前的这篇文章: https://www.cnblogs.com/Chenlead/p/18571005 安装过程参考:https://docs.openwebui.com/getting…

Jmeter 临界部分控制器 Critical Section Controller

Jmeter必知利器-临界部分控制器-腾讯云开发者社区-腾讯云 Jmeter之临界部分控制器使用-CSDN博客 使用前,线程执行顺序随机 使用后,线程执行顺序从上到下

dedecms提示500错误解决方法

查看网站程序版本:打开 /data/admin/ver.txt 文件查看 查看主机PHP版本:在主机面板查看或创建一个 p.php 文件,内容为 <?php phpinfo(); ?>,上传到网站根目录,访问 http://域名/p.php 查看PHP版本,完成后删除 p.php 低版本织梦(2014、2015、2016、2017开头)无法…

自动检测工作人员工服穿戴规范行为

自动检测工作人员工服穿戴规范行为利用现场安装的高清摄像机,自动检测工作人员工服穿戴规范行为对采集到的视频进行预处理,识别出图像中的员工,并检测其工服穿戴情况,一旦系统判断出工服穿戴异常,将立即发出警报,通知管理人员或自动启动相应的安全措施。通过实时监测,及…

Docker Logs清理

查看docker日志路径 docker inspect --format={{.LogPath}} <container_name_or_id>清理docker日志 echo |sudo tee $(docker inspect --format={{.LogPath}} <container_name_or_id>).zstitle { width: 280px; text-align: center; font-size: 26px } .zsimgwei…

hhdb数据库介绍(9-9)

高可用服务 读写分离 计算节点支持读写分离功能,并且支持配置读写分离权重 读写分离功能说明 要使用读写分离功能,需在数据节点中配置主备存储节点。 读写分离功能默认设置为关闭。开启读写分离功能,可在计算节点的配置文件server.xml中,将strategyForRWSplit属性设置为大于…