(2023,提示扩展,图像反演,文本到文本生成)自适应文本到图像生成的提示扩展

Prompt Expansion for Adaptive Text-to-Image Generation

公众:EDPJ(添加 VX:CV_EDPJ 或直接进 Q 交流群:922230617 获取资料)

目录

0. 摘要

3. 提示扩展数据集

3.1 图像审美数据集

3.2 图像到文本反演

3.3 查询/提示提取

4. 提示扩展模型

4.1 基础模型

4.2 重新微调

5. 可控生成

5.1 用于受控提示扩展的前缀

5.2 通用 Prompt Expansion 的前缀丢弃

5.3 多步提示扩展

7. 结果和讨论

S. 总结

S.1 主要贡献

S.2 方法


0. 摘要

文本到图像生成模型功能强大但难以使用。用户制定具体提示以获得更好的图像,但图像可能会重复。本文提出了一个提示扩展框架,帮助用户以更少的努力生成高质量、多样化的图像。提示扩展(Prompt Expansion,PE)模型将文本查询作为输入,并输出一组经过优化的扩展文本提示,当传递给文本到图像模型时,可生成更多种类的吸引人图像。我们进行了人类评估研究,结果显示通过提示扩展生成的图像在审美和多样性方面优于基线方法生成的图像。总体而言,本文提出了一种改进文本到图像生成体验的新颖有效方法。

3. 提示扩展数据集

提示扩展(PE)框架需要一个模型,以用户的文本查询作为输入,并返回 N 个文本提示作为输出,使得通过文本到图像生成的 N 个文本提示将返回一组与查询对齐的 N 个多样化、美观的图像。为了训练 PE 模型,我们需要一个将查询映射到提示的数据集,我们以反演的方式构建它。首先,我们收集审美质量高的图像,包括模型生成的图像和自然图像(参见第 3.1 节)。其次,我们将图像反演为与之密切对应的提示,其中包括 alt-text 术语(我们称之为 flavors,参见第 3.2 节)。最后,我们将反演的文本映射到一系列与用户输入更密切对应的高级查询(参见第 3.3节)。这些查询与第二步的提示配对,形成 {查询:提示} 数据集。

3.1 图像审美数据集

我们策划了两个图像数据集。第一个是Webli-Align,由来自Webli(Chen等人,2023)和Align(Jia等人,2021)数据集的图像组成,经过过滤,仅保留具有高 MUSIQ(Ke等人,2021)审美分数的图像。第二个是 CrowdSourced,通过众包(crowd-sourcing)文本到图像模型的输出获得。我们提供了一个类似于 Gradio 的文本到图像生成界面,允许大型组织的用户输入生成图像的提示。用户还可以选择点赞他们喜欢的图像。我们使用这个信号仅保留最吸引人的图像。我们保留了 80k Webli-Align(自然)和 40k CrowdSourced(生成)图像。

3.2 图像到文本反演

第二步是将图像在图像审美数据集中反转为提示文本。虽然用户查询是用户提供的输入,但提示是生成特定图像的文本。我们使用 Interrogator(CLIP-Interrogator)方法进行图像到文本反转。计算得到的提示文本是通过连接一个标题和一组 ‘flavors’ 生成的。标题是对图像内容的描述(例如,谁、什么、在哪里、什么时候)。为了生成标题,我们使用为标题任务微调过的 COCA(Yu等人,2022a)。"flavor" 是指一个描述性词/短语,可以改变图像的风格,而不会添加/更改图像的内容,例如 "印象派" 或 "dslr"。我们从大量生成图像的收集的提示中生成 flavors 列表(详见第 J 节)。

3.3 查询/提示提取

数据集准备的最后一步是计算一系列适合映射到反演文本(提示)的潜在用户查询。我们使用FLAN-PaLMChilla 62B(Chung等人,2022)进行 few-shot 提示,以生成逐渐缩短的查询和更长的提示。该模型接收将长提示映射到短查询的 few-shot 提示集作为示例。few-shot 提示的格式为{提示:查询},这些配对的示例可以在图 6 和表 2 中看到。对于图像到文本反演的每个提示,few-shot 提示示例都被前置为上下文,然后由文本到文本模型生成相应的查询。

我们提取了一系列可以映射到扩展提示的不同查询,并使用 few-sho t提示生成抽象的、具体的、短、中、长长度的查询。附录 A 中详细说明了查询类型的生成方式(例如,基于事实的查询,引出具体性)。这导致一个包含 600k {查询:提示} 对的 Prompt Expansion 数据集。我们执行 70-20-10 的训练-验证-测试拆分,并将训练集拆分为基础和重新精调的的 50-50 比例。

 

4. 提示扩展模型

我们描述了训练 Prompt Expansion 模型的两个阶段:(i)我们在 Prompt Expansion 数据集上训练基础 Prompt Expansion 模型;然后(ii)我们针对下游文本到图像模型重新微调基础模型。

4.1 基础模型

我们的 Prompt Expansion 模型是一个文本生成模型,经过训练,可使用基于 PaLM 2 语言模型家族(Anil等人,2023年)的架构将查询文本映射到扩展的提示文本。PaLM 2 是一个仅解码器的基于 Transformer 的架构,采用 UL2 目标(Tay等人,2023年)进行训练。在评估不同的模型配置后,我们使用 Prompt-tuning(Lester等人,2021年),训练了一个包含 10 亿参数的 PaLM 2 模型,如表 7 所述。我们选择了这个相对较小的基础架构,因为它需要作为复杂的高延迟文本到图像模型(例如 Imagen(Saharia等人,2022a))的前端,因此需要低资源/延迟以使整个流水线可用。对于基础数据集,我们使用 Prompt Expansion 数据集的 50% 拆分,该数据集在第 3 节中有描述,包含 30 万个 {查询:提示} 示例。

4.2 重新微调

在训练基础模型后,我们观察到它可能生成无法使文本到图像模型生成良好图像的提示。造成这种情况的主要原因是基础 Prompt Expansion 模型生成的扩展提示是基于 COCA 图像到文本反演模型偏爱的文本和图像之间的对齐。因此,我们提出了一种通用的重新微调过程:给定模型的目标行为,重新微调以过滤基础模型生成的与目标行为相符的扩展提示。为了与文本到图像模型对齐,我们构建了一个数据集,其中扩展的提示更接近下游文本到图像模型的行为。

对于 Prompt Expansion 数据集剩余的 50% 拆分中的查询,我们从基础模型生成扩展的提示,然后将其输入到下游文本到图像模型(在我们的实验中是 Imagen(Saharia等人,2022a))。我们使用查询-图像嵌入距离和提示-图像嵌入距离的加权平均(有关详细信息,请参见附录D)对这些图像进行评分,并过滤出得分低于固定阈值的 {查询:提示} 对。然后,我们仅使用这些被过滤的 {查询:提示} 对从基础模型检查点继续重新微调,从而产生 PE:重新微调模型,它经过优化以返回使文本到图像模型能够生成高质量图像的查询和 flavors。

5. 可控生成

5.1 用于受控提示扩展的前缀

到目前为止,我们已经介绍了构建通用 Prompt Expansion 模型的方法。然而,通常情况下,用户或应用程序设计人员希望控制 Prompt Expansion 策略的方向,例如添加更多 flavor 或添加特定类型的多样化细节。为了支持这些用例,我们实现了我们的 Prompt Expansion 模型的可控版本,可以通过在查询前添加 8 个支持的前缀之一来指导生成特定类型的扩展。例如,我们可以使用 FLV 前缀指导模型仅生成 flavor,或者使用 MSTP 前缀在交互式多步提示扩展场景中迭代扩展原始查询。控制生成的几个示例显示在表 2 中,支持的所有 flavor 的完整列表在表 1 中。为了训练 PE: Multi-Prefix 模型,我们从第 3 节的 Prompt Expansion 数据集开始。每个 {查询:提示} 对都分配了一个适当的前缀。在 few-shot 提示期间,一些查询/提示被格式化为抽象或详细,因此这些前缀是已知的(例如,ABST,DTL)。一些前缀(例如,RFT,MSTP)也是已知的,因为它们的 {查询:提示} 对是合成的。需要对一些 {查询:提示} 对进行前缀分类,例如将 HAST 前缀分配给返回良好美学效果的提示。前缀分配导致了 Prompt Expansion 数据集的一个新版本,其中每个查询都以一个前缀开头;这用于微调和训练 PE: Multi-Prefix 模型。

5.2 通用 Prompt Expansion 的前缀丢弃

有了 Multi-Prefix 数据集,我们探索了使用可控生成提示来改善通用 Prompt Expansion 任务性能的可能性。其思想是使用可控生成初始化模型的训练,然后在训练过程中逐渐改变其行为,猜测给定查询的适当前缀并生成匹配的扩展。例如,对于高度抽象的查询,如 "Undying Love",模型的行为应该与 ABST 前缀相匹配(见表 2)。通过一种我们称之为前缀丢弃(Prefix Dropout)的新颖学习技术来实现这一点。我们从上述前缀注释的数据集开始,但在训练过程中,逐渐增加前缀在查询中被随机移除或丢弃的例子的百分比,从 0.4 的丢弃率逐渐增加到 1.0。这产生了 PE: Prefix Dropout 模型,可以与我们的基础和重新微调的模型进行比较,作为通用 Prompt Expansion 的候选模型。

5.3 多步提示扩展

探索可能是一个多步骤的过程。在用户的查询返回一组扩展提示之后,用户可以在提示中进行选择,并将此提示反馈到 Prompt Expansion 模型中。这使用户能够在不需要手动设计文本提示的情况下迭代扩展提示。使用 PE: Re-fine-tuned,我们在留出的查询上生成扩展提示,并在上一步的提示上迭代生成提示。这导致了从扩展提示到下一步扩展提示的多步训练数据。我们使用 MSTP 前缀在 Prompt Expansion 模型上对多步数据进行重新微调。

7. 结果和讨论

在美学、图文对齐和多样性方面,相比于基线,提示扩展(Prompt Expansion,PE) 表现良好。

在美学方面,基于 PE 生成的图像更符合人类的审美。在图文对齐方面,人们认为,PE 与基线性能相当。

S. 总结

S.1 主要贡献

用户制定具体提示以生成更好的图像,但图像可能会重复。本文提出提示扩展(Prompt Expansion,PE),将文本查询作为输入,并输出一组经过优化的扩展文本提示,当传递给文本到图像模型时,可生成更多种类的吸引人图像。

S.2 方法

提示扩展数据集的构建和模型的训练如图 6 所示。

提示扩展数据集的构建

  • 基于用户输入查询,收集审美质量高的图像,包括模型生成的图像和自然图像
  • 使用 Interrogator(CLIP-Interrogator)将图像反演为与之密切对应的提示
  • 将反演的文本映射到一系列与用户输入更密切对应的高级查询。这些高级查询与第二步的提示配对,形成 {查询:提示} 数据集。

提示扩展模型的训练包含两个阶段:

  • 在提示扩展数据集上训练基础提示扩展模型:使用基于 PaLM 2 语言模型的架构将查询文本映射到扩展的提示文本
  • 针对下游文本到图像模型重新微调基础模型:从基础模型生成扩展的提示,然后将其输入到下游文本到图像模型。
  • 然后,计算查询-图像嵌入距离和提示-图像嵌入距离的加权平均,并过滤结果低于固定阈值的 {查询:提示} 对。
  • 然后,仅使用这些被过滤的 {查询:提示} 对从基础模型检查点继续重新微调,从而产生 PE:重新微调模型,它经过优化以返回使文本到图像模型能够生成高质量图像的查询。

PE: Multi-Prefix 模型

  • 在查询前添加 8 个支持的前缀之一来指导生成特定类型的扩展。
  • 为训练 PE: Multi-Prefix 模型,从 Prompt Expansion 数据集开始,为每个 {查询:提示} 对都分配了一个适当的前缀。
  • 在 few-shot 提示期间,一些查询/提示被格式化为抽象(ABSTract)或详细(DeTaiLed),因此这些前缀是已知的(例如,ABST,DTL)。
  • 一些前缀(例如,RFT,MSTP)也是已知的,因为它们的 {查询:提示} 对是合成的(Re-Fine-Tuned,MultiSTeP)。
  • 需要对一些 {查询:提示} 对进行前缀分类,例如将 HAST 前缀分配给返回良好美学(HighAeSThetics)效果的提示。

PE: Prefix Dropout 模型:从 PE: Multi-Prefix 的前缀注释数据集开始,在训练过程中,逐渐增加前缀在查询中被随机移除或丢弃的例子的百分比,从 0.4 的丢弃率逐渐增加到 1.0。

PE: Re-fine-tuned 模型:在用户的查询返回一组扩展提示之后,用户可以在提示中进行选择,并将此提示反馈到 Prompt Expansion 模型中。这使用户能够在不需要手动设计文本提示的情况下迭代扩展提示。实验结果表明,该模型具有最突出的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/311027.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【数据结构与算法】字符串匹配(头歌习题)【合集】

目录 第1关:实现朴素的字符串匹配任务描述相关知识编程要求评测说明完整代码 第2关:实现KMP字符串匹配任务描述相关知识编程要求评测说明完整代码 第3关:【模板】KMP算法任务描述相关知识C STL容器string1、string的定义2、string中内容的访问…

使用YOLOv8和Grad-CAM技术生成图像热图

目录 yolov8导航 YOLOv8(附带各种任务详细说明链接) 概述 环境准备 代码解读 导入库 定义letterbox函数 调整尺寸和比例 计算填充 应用填充 yolov8_heatmap类定义和初始化 后处理函数 绘制检测结果 类的调用函数 热图生成细节 参数解释 we…

C++初阶——基础知识(函数重载与引用)

目录 1.命名冲突 2.命名空间 3.缺省参数 4.函数重载 1.函数重载的特点包括: 2.函数重载的好处包括: 3.引用 引用的特点包括 引用的主要用途包括 引用和指针 引用 指针 类域 命名空间域 局部域 全局域 第一个关键字 命名冲突 同一个项目之间冲…

sklearn 中matplotlib编制图表

代码 # 导入pandas库,并为其设置别名pd import pandas as pd import matplotlib.pyplot as plt# 使用pandas的read_csv函数读取名为iris.csv的文件,将数据存储在iris_data变量中 iris_data pd.read_csv(data/iris.txt,sep\t)# 使用groupby方法按照&quo…

期权二叉树估值与图计算

传统期权二叉树的算法都是基于数组的,对于没有编程基础的人来说非常不直观。二叉树是一种特殊的图,可以用python networkx这个图算法库实现,这个库不仅包含常用的图算法,还包含简单的绘图功能,非常适合研究分析使用。 …

【ARMv8M Cortex-M33 系列 2.1 -- Cortex-M33 使用 .hex /.srec 文件介绍】

请阅读【嵌入式开发学习必备专栏 之Cortex-M33 专栏】 文章目录 HEX 文件介绍英特尔十六进制文件格式记录类型hex 示例Cortex-M 系列hex 文件的使用 hex 文件和srec 文件生成Motorola S-Record (srec) 格式 HEX 文件介绍 .hex 文件通常用于微控制器编程,包括 ARM C…

TypeError: control character ‘delimiter‘ cannot be a newline (`\r` or `\n`)

报错 找到错误代码 这个错误是因为在使用 numpy.loadtxt() 函数时尝试将换行符(\n)作为分隔符(delimiter)。然而,换行符是用于标识文本文件中每一行的结束,而不是用于分隔数据字段。 解决 如果你的数据文…

c++ OpenCV4图像处理与视频分析实战教程 -> 自建代码库

OpenCV4图像处理与视频分析实战教程,系列视频自建代码库。C版本。 视频可B站搜索。 简介: 网上流传的“OpenCV4图像处理与视频分析实战”课程附带资料需要解压密码,无法使用,且原视频购买很贵(51CTO售价119&#xff0…

在Mac上恢复SD卡数据的 6 个有效应用程序

慌!SD卡里的照片和视频不小心删了,Mac设备上还恢复不了数据! 遇到这种情况,你需要的是一款可靠的Mac适用的SD卡恢复软件。我们为你准备了一份最佳的SD卡恢复软件列表,并且还有详细的评论。另外,我们还会给…

用通俗易懂的方式讲解大模型:LangChain Agent 原理解析

LangChain 是一个基于 LLM(大型语言模型)的编程框架,旨在帮助开发人员使用 LLM 构建端到端的应用程序。它提供了一套工具、组件和接口,可以简化创建由 LLM 和聊天模型提供支持的应用程序的过程。 LangChain 由几大组件构成&#…

k8s搭建(五、k8s可视化管理工具Dashboard配置)

天行健,君子以自强不息;地势坤,君子以厚德载物。 每个人都有惰性,但不断学习是好好生活的根本,共勉! 文章均为学习整理笔记,分享记录为主,如有错误请指正,共同学习进步。…

【基础】【Python网络爬虫】【8.Selenium入门】selenium配置、环境安装、浏览器驱动下载(附大量案例代码)(建议收藏)

Python网络爬虫基础 Selenium 入门1. 动态网页&静态网页动态网页JavaScriptJQueryAjaxHTML 动态网页处理方法 2. Selenium 工作原理3. Selenium 配置环境安装浏览器驱动下载配置浏览器驱动 selenium 快速上手 4. Driver对象的常用方法及属性5. 元素提取6. 元素对象的方法及…