一、图文匹配
二、Stable-Diffusion(稳定扩散)
图片生成器
Stable-Diffusion(稳定扩散)组成模块:
- CrossAttention模块:将文本的语义信息与图像的语义信息进行Attention机制,增强输入文本Prompt对生成图片的控制。
- SelfAttention模块:SelfAttention模块的整体结构与CrossAttention模块相同,这是输入全部都是图像信息,不再输入文本信息。
- BasicTransformer Block模块: 由LaverNorm+SelfAttention+CrossAttention+FeedForward组成是多重Attention机制的级联,并且也借鉴ResNet模型的“残差结构”。通过加深网络和多Attention机制,大幅增强模型的学习能力与图文的匹配能力。