CoSeR桥接图像和语言以实现认知超分辨率-编程知识

CoSeR桥接图像和语言以实现认知超分辨率

news/2025/3/11 7:02:35/文章来源:https://www.cnblogs.com/wujianming-110117/p/18523224

CoSeR桥接图像和语言以实现认知超分辨率

6.10.1 CoSeR桥接图像和语言以实现认知超分辨率概述

现有的超分辨率（SR）模型主要侧重于恢复局部纹理细节，往往忽略了场景中的全局语义信息。这种疏忽可能会导致在恢复过程中遗漏关键的语义细节或引入不准确的纹理。

引入了认知超分辨率（CoSeR）框架，赋予SR模型理解低分辨率图像的能力。通过将图像外观和语言理解结合起来生成认知嵌入来实现这一目标，该嵌入不仅激活了从大型文本到图像扩散模型的先验信息，还促进了高质量参考图像的生成，以优化SR过程。为了进一步提高图像的保真度，提出了一种新的条件注入方案，称为All in Attention，将所有条件信息整合到一个模块中。因此，方法成功地恢复了语义正确和逼真的细节，在多个基准测试中展示了最先进的性能。

6.10.2 CoSeR桥接图像和语言以实现认知超分辨率技术分析

可视化显示由认知超分辨率（CoSeR）模型生成的4倍超分辨率结果如图6-17所示。

图6-17 可视化显示由认知超分辨率（CoSeR）模型生成的4倍超分辨率结果

在图6-17中，CoSeR熟练地从低分辨率（LR）图像中提取认知信息，并利用它生成高质量的参考图像。该参考图像在语义和纹理方面与LR图像紧密对齐，显著有利于超分辨率过程。

为了简明起见，将输入、生成的引用和恢复结果分别表示为LR、GR和SR。最佳视图放大。

认知超分辨率（CoSeR）网络框架如图6-18所示。

图6-18 认知超分辨率（CoSeR）网络框架

在图6-18中，给定低分辨率（LR）图像，采用认知编码器提取包含语义和纹理信息的认知嵌入，然后用于生成高质量的参考图像。使用全注意力（AiA）模块将LR输入、认知嵌入和参考图像集成到去噪U-Net中，分别由蓝色、金色和青色线条表示。认知编码器和AiA模块的结构详见（b）和（c）。可训练模块以红色突出显示，而冻结模块以蓝色显示。

BLIP2字幕和认知编码器生成的参考图像、认知适配器的结构，如图6-19所示。