论文：https://arxiv.org/abs/2302.03027
代码：https://github.com/pix2pixzero/pix2pix-zero/tree/main

文章目录

Abstract
1. Introduction
相关工作
3. Method

Abstract

大规模文本到图像生成模型展示了它们合成多样且高质量图像的显著能力。然而，直接将这些模型应用于编辑真实图像仍然存在两个挑战。首先，用户很难提供完美的文本提示，准确描述输入图像中的每个视觉细节。其次，尽管现有模型可以在某些区域引入期望的改变，但它们通常会在不需要编辑的区域引入意想不到的变化，从而大幅改变输入内容。在这项工作中，我们提出了pix2pix-zero，一种图像到图像的转换方法，可以在没有手动提示的情况下保留原始图像的内容。我们首先自动发现反映文本嵌入空间中所需编辑的编辑方向。为了在编辑后保留一般内容结构，我们进一步提出了交叉注意力引导，旨在在扩散过程中保留输入图像的交叉注意力图。此外，我们的方法不需要对这些编辑进行额外的训练，可以直接使用现有的预训练文本到图像扩散模型。我们进行了大量实验证明，我们的方法在真实和合成图像编辑方面优于现有和同时进行的工作。

图1：我们提出了pix2pix-zero，这是一种基于扩散的图像到图像转换方法，允许用户即时指定编辑方向（例如，猫 → 狗）。我们在真实图像（上方2行）和合成图像（底部行）上执行各种翻译任务，同时保留输入图像的结构。我们的方法既不需要为每个输入图像手动进行文本提示，也不需要为每个任务进行昂贵的微调。

在这里插入图片描述

1. Introduction

最近的文本到图像扩散模型，如DALL·E 2 [43]、Imagen [51]和Stable Diffusion [47]，生成具有复杂对象和场景的多样化、逼真的合成图像，展示了强大的组合能力。

然而，将这些模型重新用于编辑真实图像仍然具有挑战性。

首先，图像并不自然地附带文本描述。指定一个文本描述是繁琐且耗时的，因为一张图片价值千言万语，包含许多纹理细节、光照条件和形状微妙之处，在词汇表中可能没有对应的词语。其次，即使有初始和目标文本提示（例如，将猫改为狗），现有的文本到图像模型往往会合成完全新的内容，不符合输入图像的布局、形状和物体姿态。毕竟，编辑文本提示只告诉我们想要改变什么，但并未传达我们想要保留的内容。最后，用户可能希望对多样的真实图像执行各种编辑。因此，我们不希望为每个图像和编辑类型进行大规模的微调，因为这将带来极高的成本。

为了克服上述问题，我们引入了pix2pix-zero，一种基于扩散的图像到图像转换方法，无需训练和文本提示。

用户只需即时指定编辑方向，形式为源域 → 目标域（例如，猫 → 狗），无需为输入图像手动创建文本提示。我们的模型可以直接使用预训练的文本到图像扩散模型，无需为每个编辑类型和图像进行额外的训练。

在这项工作中，我们做出了两个关键贡献：(1) 高效的自动编辑方向发现机制，无需输入文本提示。我们自动发现适用于广泛输入图像的通用编辑方向。给定一个原始词（例如，猫）和一个编辑后的词（例如，狗），我们分别生成包含原始和编辑后词的两组句子。然后，我们计算两组句子之间的CLIP嵌入方向。由于该编辑方向基于多个句子，比仅仅在原始和编辑后词之间找到方向更加稳健。这一步仅需约5秒即可预先计算。(2) 通过交叉注意力引导进行内容保留。我们观察到交叉注意力图对应于生成物体的结构。为了保留原始结构，我们鼓励文本-图像交叉注意力图在转换前后保持一致。因此，我们在整个扩散过程中应用交叉注意力引导来强制实现这种一致性。在图1中，我们展示了使用我们的方法进行各种编辑的结果，同时保留输入图像的结构。

我们进一步通过一系列技术来改进结果并提高推断速度：(1) 自相关正则化：在应用DDIM [55]反转时，我们观察到DDIM反转容易使中间预测的噪声不太符合高斯分布，这降低了反转图像的可编辑性。因此，我们引入了自相关正则化，以确保在反转过程中噪声接近高斯分布。(2) 条件GAN蒸馏：由于多步推断的昂贵扩散过程，扩散模型较慢。为了实现交互式编辑，我们将扩散模型蒸馏为快速的条件GAN模型，给定来自扩散模型的原始和编辑后图像的配对数据，从而实现实时推断。

我们在各种图像到图像转换任务上演示了我们的方法，例如改变前景对象（猫 → 狗）、修改物体（在猫图像上添加眼镜）以及改变输入的风格（草图 → 油 pastel），用于真实图像和合成图像。

大量实验证明，pix2pix-zero在逼真性和内容保留方面优于现有和同时进行的作品[35, 22]。最后，我们对各个算法组件进行了广泛的剔除研究，并讨论了我们方法的限制。更多结果和相关代码请访问我们的网站https://pix2pixzero.github.io/。

3. Method

略

在这里插入图片描述

图3：pix2pix-zero方法的概述，通过一个猫→狗编辑示例进行说明。首先，我们使用正则化的DDIM反转获得一个反转的噪声图。这由文本嵌入c引导，文本嵌入c是使用图像字幕网络BLIP [33]和CLIP文本嵌入模型自动计算得到的。接着，我们通过原始文本嵌入对图像进行去噪，得到交叉注意力图，作为输入图像结构的参考（顶部行）。然后，我们通过编辑后的文本嵌入c + ∆cedit 进行去噪，使用损失函数鼓励交叉注意力图与参考交叉注意力图匹配（第2行）。这确保编辑后图像的结构与原始图像相比没有发生显著变化。第3行展示了没有交叉注意力引导的去噪结果，导致结构上的大幅偏离。

在这里插入图片描述