RealCustom:缩小真实文本词的范围,实现实时开放域文本到图像的定制

RealCustom:缩小真实文本词范围,实现实时开放域文本到图像定制
文本到图像定制旨在为给定的主题合成文本驱动的图像,最近彻底改变了内容创作。现有的作品遵循伪词范式,即将给定的主题表示为伪词,然后将其与给定的文本组合在一起。然而,伪词与给定文本固有的纠缠扩散范围导致了双重最优悖论,即给定主题的相似性和给定文本的可控性不能同时达到最优。首次提出了RealCustom,通过将主语扩散精确地限制在相关部分,将相似性与可控性脱钩,这是通过将真实文本单词从其一般内涵逐渐缩小到特定主语,并利用其交叉注意力来区分相关性来实现的。具体来说,RealCustom引入了一种新颖的训练推理解耦框架:(1)在训练过程中,RealCustom通过一种新颖自适应评分模块,学习视觉条件与原始文本条件之间的一般对齐,以自适应地调节信息量;(2) 在推理过程中,提出了一种新的自适应掩码引导策略,迭代更新给定主题的扩散范围和扩散量,以逐渐缩小真实文本单词的生成范围。综合实验表明,RealCustom在开放域中具有卓越的实时定制能力,首次实现了给定主题前所未有的相似性和给定文本的可控性。
现有范式与改进范式之间的比较,如图3-19所示。
图3-19 现有范式与改进范式之间的比较
在图3-19中,(a)现有的范式将给定的主题表示为伪词(例如S*),将相同的整个信息范围与给定的文本纠缠在一起,导致了双重最优悖论,即给定主题的相似性和给定文本的可控性不能同时达到最优。(b)提出了RealCustom,这是一种新颖的范式,它首次通过精确给定的主题限制为仅包含相关部分的信息,而其余部分完全由给定的文本控制,从而将相似性与可控性脱钩。这是通过迭代更新指定受试者的扩散范围和扩散量来实现的。(c)定量比较表明,范式比现有范式的最新技术实现了更高的相似性和可控性。CLIP图像得分(CLIP-I)和CLIP文本得分(CLIP-T)用于评估相似性和可控性。
提出的RealCustom采用了一种新颖的训练推理解耦框架,如图3-20所示。
 
图3-20 提出的RealCustom采用了一种新颖的训练推理解耦框架
在图3-20中,(a)在训练过程中,所提出的自适应评分模块学习了视觉和原始文本条件之间的一般对齐,该模块根据文本和当前生成的特征准确推导出视觉条件。(b)在推理过程中,通过改进的自适应掩码引导策略,将一个真实的目标(例如玩具)从其最初的一般含义逐步缩小到给定的主题(例如,独特的棕色树懒玩具),该策略由两个分支组成,即文本到图像(T2I)分支,其中视觉条件设置为0,以及文本和图像到图像(TI2I)分支,其视觉条件设置指定的主题。T2I分支旨在通过聚合目标真实单词(例如玩具)的交叉注意力来计算信息扩散范围,而TI2I分支旨在将信息扩散量注入该范围。
自适应评分模块的图示,如图3-21所示。
 
图3-21自适应评分模块的图示
在图3-21中,文本特征和当前生成的特征首先被聚合到文本和视觉上下文中,然后与图像特征在空间上连接起来,以预测文本和视觉得分。然后根据当前的时间步长,对这些分数进行融合。最终,根据融合分数只选择关键特征的一个子集。
改进方法与现有方法的定性比较,如图3-22所示。
 
图3-22 改进方法与现有方法的定性比较
在图3-22中,与现有作品相比,RealCustom可以产生更高质量的定制结果,这些结果与给定主题具有更好的相似性,与给定文本具有更好的可控性。此外,RealCustom展示了卓越的多样性(不同的拍摄对象姿势、位置等)和生成质量(例如,第3行的秋叶场景)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/834436.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网站f12代码怎么修改,掌握网站F12调试工具的使用技巧

打开F12开发者工具:在浏览器中打开您需要调试的网页,按下F12键或右键点击页面任意位置选择“检查”(Inspect),即可打开开发者工具。选择Elements面板:在开发者工具顶部的选项卡中,选择“Elements”面板。这里显示了当前页面的HTML结构。查找目标元素:使用鼠标悬停在页面…

织梦手机网站模板修改,如何在织梦CMS中修改手机网站模板

织梦CMS(DedeCMS)支持手机网站模板的自定义,通过以下步骤可以轻松修改手机网站模板:登录后台:打开浏览器,输入织梦CMS的后台地址,使用管理员账号登录。进入模板管理:在后台左侧菜单栏中选择“模板” -> “默认模板管理”。 选择“手机模板”选项卡,查看当前使用的手…

网站开源代码修改,如何在本地开发环境中修改网站开源代码

修改网站开源代码可以定制网站的功能和设计。以下是修改网站开源代码的步骤:克隆代码仓库:使用Git或其他版本控制工具克隆网站的开源代码仓库。 例如:git clone https://github.com/username/repository.git cd repository安装依赖:根据项目文档安装所需的依赖库。 例如,使…

Codeforces Round 985 div2 个人题解(A~E)

Codeforces Round 985 div2 个人题解(A~E) Dashboard - Codeforces Round 987 (Div. 2) - Codeforces 火车头 #include <bits/stdc++.h>using namespace std;#define ft first #define sd second#define yes cout << "yes\n" #define no cout << &…

CTF/9/pwnerTool,一个适用于CTF中自动对Pwn题目文件进行信息收集,并且生成基础做题py文件的Pwn工具

CTF中自动对Pwn题目文件进行信息收集,并且生成基础做题py文件的Pwn工具,适用于Ubuntu 随手写的,写的不好请轻喷. 一个用于ctf对Pwn题目文件进行信息收集,打包了检查文件类型、检查类型保护、新建py文件、寻找传参工具的过程。 同时可以修补题目给出的动态库和libc文件保证本…

Spacedrive :一款开源超高颜值功能强大的跨平台文件管理器

我们的文件越来越来越多,大量的文件分布在网盘,硬盘里面。即使电脑硬盘里面,也是分布在不同的地方,管理起来越来非常麻烦。 要是能够有一个软件,可以将网盘,硬盘和网络驱动器统一起来管理,将会是多么的方便。 今天就给大家推荐一个高颜值的文件管理软件——spacedrive,…

【shell脚本】监控IP频繁登录服务器脚本

该脚本的作用是监控IP登录失败次数,如果某个IP的登录失败次数超过设定的最大次数,则阻止该IP的进一步登录尝试。通过iptables防火墙阻止连接,当一个IP尝试登录次数超过5次时,iptables会阻止来自该IP的所有连接。 #!/bin/bashfunction secrity(){ # 设置要监控的登录失败次数…

[OtterCTF 2018]-内存取证-WP

看了很多大佬的博客,才发现他们的文章都会写摘要~~ 我就没写过哈哈(比较懒)。我的博客比较水,内容少而质量低,分类挺乱的,后面慢慢改善吧!写这篇主要是为了学习 vol2 的使用(八神推荐的嘿嘿),有不好的地方可以指点一下![OtterCTF 2018] WP [OtterCTF 2018] What the…

vm最小化安装centos

前期准备 VMware Workstation CentOS-7-x86_64-DVD-2009.iso http://mirrors.aliyun.com/centos/7.9.2009/isos/x86_64/ 创建虚拟机默认下一步,选择稍后安装接着默认下一步,完成后编辑虚拟机设置镜像安装centos 选择第一个Install CentOS 7接着一路默认 配置静态ip 查看子网地…

《Django 5 By Example》阅读笔记:p105-p164

《Django 5 By Example》学习第5天,p105-p164总结,总计60页。 一、技术总结 1.文章标签功能 Django自带django-taggit。 2.自定义template tags 3.roadmap功能 4.RSS功能 5.full-text搜索功能 这里使用的是Postgresql,使用pip install psycopg安装后,执行“python manage.py…

11/15

好讨厌现在的自己 我的能量太低了 需要不断的慰藉 我喜欢逃避 野心家,思想家,我真的sb 没有成就感 绝望绝望绝望绝望绝望今天很drama,不想说什么了,难受,以后再写 明天计划C语言5题【今天少了一道】 下午去比赛 前端考核作业【1/2】可能睡觉睡少了,不开心?洗洗睡了

团队项目4——项目冲刺-4

每日站立式会议昨天已完成的工作: 杨睿:完善社区活动模块接口 个人中心模块接口木萨江:投诉反馈页面开发 管理员管理用户相关接口巴音才次克:物业报修相关接口李佳聪:检查车位信息的删查改接口是否符合需求今天计划完成的工作: 杨睿:完善管理页面 对接个人中心接口木萨江…