CFAT:三角窗口实现图像超分辨率
基于变换器的模型通过利用其固有的捕获复杂上下文特征的能力,彻底改变了图像超分辨率(SR)的效果。如今,在Transformer架构中使用的重叠矩形移位窗口技术是超分辨率模型中的一种常见做法,可以提高图像放大的质量和鲁棒性。然而,它在边界处存在失真,并且具有有限的独特移位模式。为了克服这些弱点,提出了一种非重叠三角形窗口技术,该技术与矩形窗口技术同步工作,以减轻边界级失真,并允许模型访问更多独特的筛选模式。提出了一种复合融合注意力变换器(CFAT),该变换器将基于三角矩形窗口的局部注意力与基于通道的全局注意力技术相结合,用于图像超分辨率。因此,CFAT能够在更多的图像像素上激活注意力机制,并捕获长距离、多尺度特征以提高SR性能。广泛的实验结果和消融研究,证明了CFAT在SR域的有效性。提出的模型显示,与其他最先进的SR架构相比,性能提高了0.7 dB。
建议的CFAT与其他SOTA模型,如图4-1所示。
图4-1 建议的CFAT与其他SOTA模型
在图4-1中,参数含义如下。RW/TW:矩形/三角形窗口,MSA:多头注意,(D):密集,(SD):偏移密集,(S):稀疏,(O):重叠。
CFAT的整体架构,包括所有内部单元,如图4-2所示。
图4-2 CFAT的整体架构,包括所有内部单元
32×32窗口中的矩形和三角形补丁,如图4-3所示。
图4-3 32×32窗口中的矩形和三角形补丁
64×64图像块中矩形和三角形窗口的模式转换,如图4-4所示。
图4-4 64×64图像块中矩形和三角形窗口的模式转换