IMPRINT:通过学习身份保持表示进行生成对象合成
生成对象合成作为合成图像编辑的一种有前景的新途径出现了。然而,对象身份保存的要求带来了重大挑战,限制了大多数现有方法的实际使用。作为回应,介绍了IMPRINT,这是一种基于扩散的生成模型,采用两阶段学习框架进行训练,将身份保持学习与合成学习解耦。第一阶段的目标是对对象编码器进行上下文无关、身份保持的预训练,使编码器能够学习一种视图不变且有助于增强细节保持的嵌入。后续阶段利用这种表示来学习合成到背景的对象的无缝协调。此外,IMPRINT还包含一个形状引导机制,为用户提供对合成过程的直接控制。
大量实验表明,IMPRINT在身份保持和合成质量方面明显优于现有方法和各种基线。
与之前的作品进行比较、给定一个粗糙的遮罩,如图3-35所示。
图3-35 与之前的作品进行比较、给定一个粗糙的遮罩
在图3-35中,顶部:与之前的三部作品进行比较,即按示例绘制、对象缝合和TF-ICON。IMPRINT方法在身份保持和颜色/几何协调方面优于其他方法。底部:给定一个粗糙的遮罩,IMPRINT可以改变对象的姿势以遵循遮罩的形状。
改进IMPRINT的两阶段训练管道,上下文无关的ID保持阶段和对象合成阶段,如图3-36所示。
图3-36 改进IMPRINT的两阶段训练管道
在图3-36中,包括以下结论:
(a)上下文无关的ID保持阶段:设计了一种新的图像编码器(以预训练的DINOv2为骨干),该编码器在多视图对象对上训练,以学习视图不变的ID保持表示。
(b)对象合成阶段:从第一阶段获取学习到的图像编码器并冻结其骨干,对整个模型进行训练,将对象合成到掩蔽区域。