CoSeR桥接图像和语言以实现认知超分辨率

CoSeR桥接图像和语言以实现认知超分辨率
6.10.1 CoSeR桥接图像和语言以实现认知超分辨率概述
现有的超分辨率(SR)模型主要侧重于恢复局部纹理细节,往往忽略了场景中的全局语义信息。这种疏忽可能会导致在恢复过程中遗漏关键的语义细节或引入不准确的纹理。
引入了认知超分辨率(CoSeR)框架,赋予SR模型理解低分辨率图像的能力。通过将图像外观和语言理解结合起来生成认知嵌入来实现这一目标,该嵌入不仅激活了从大型文本到图像扩散模型的先验信息,还促进了高质量参考图像的生成,以优化SR过程。为了进一步提高图像的保真度,提出了一种新的条件注入方案,称为All in Attention,将所有条件信息整合到一个模块中。因此,方法成功地恢复了语义正确和逼真的细节,在多个基准测试中展示了最先进的性能。
6.10.2 CoSeR桥接图像和语言以实现认知超分辨率技术分析
可视化显示由认知超分辨率(CoSeR)模型生成的4倍超分辨率结果如图6-17所示。
 
图6-17 可视化显示由认知超分辨率(CoSeR)模型生成的4倍超分辨率结果
在图6-17中,CoSeR熟练地从低分辨率(LR)图像中提取认知信息,并利用它生成高质量的参考图像。该参考图像在语义和纹理方面与LR图像紧密对齐,显著有利于超分辨率过程。
为了简明起见,将输入、生成的引用和恢复结果分别表示为LR、GR和SR。最佳视图放大。
认知超分辨率(CoSeR)网络框架如图6-18所示。
图6-18 认知超分辨率(CoSeR)网络框架
在图6-18中,给定低分辨率(LR)图像,采用认知编码器提取包含语义和纹理信息的认知嵌入,然后用于生成高质量的参考图像。使用全注意力(AiA)模块将LR输入、认知嵌入和参考图像集成到去噪U-Net中,分别由蓝色、金色和青色线条表示。认知编码器和AiA模块的结构详见(b)和(c)。可训练模块以红色突出显示,而冻结模块以蓝色显示。
BLIP2字幕和认知编码器生成的参考图像、认知适配器的结构,如图6-19所示。
 
图6-19  BLIP2字幕和认知编码器生成的参考图像、认知适配器的结构
在图6-19中,(左)通过BLIP2字幕和认知编码器生成的参考图像。第一行显示需要增加令牌号码。最后两行显示了直接使用字幕进行认知的缺点。(右)认知适配器的结构。
认知信息,采用不同的认知编码器,并结合生成的参考图像。
    由具有不同监督方法的认知编码器生成的参考图像,如图6-20所示。
 
图6-20 由具有不同监督方法的认知编码器生成的参考图像
    由认知编码器生成的参考图像,具有不同数量的可学习查询,如图6-21所示。
 
图6-21 由认知编码器生成的参考图像,具有不同数量的可学习查询
    提出的CoSeR框架中去噪U-Net的网络结构如图6-22所示。
 
图6-22 提出的CoSeR框架中去噪U-Net的网络结构
    CoSeR框架中ControlNet的网络结构如图6-23所示。
 
图6-23 CoSeR框架中ControlNet的网络结构
ImageNet Test2000数据集的定性比较(第1/4部分)如图6-24所示。
图6-24 ImageNet Test2000数据集的定性比较(第1/4部分)
    ImageNet Test2000数据集的定性比较(第2/4部分)如图6-25所示。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/826162.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

综合、诊断和优化:迈向精细视觉语言理解

综合、诊断和优化:迈向精细视觉语言理解 6.8.1 综合、诊断和优化:迈向精细视觉语言理解概述视觉语言模型(VLM)在各种下游任务中表现出了卓越的性能。然而,理解细粒度的视觉语言概念,如属性和对象间关系,仍然是一个重大的挑战。虽然有几个基准旨在以更精细的粒度评估VLM,…

Nuxt.js 应用中的 nitro:init 事件钩子详解

title: Nuxt.js 应用中的 nitro:init 事件钩子详解 date: 2024/11/3 updated: 2024/11/3 author: cmdragon excerpt: nitro:init 是 Nuxt 3 中的一个生命周期钩子,在 Nitro 初始化完成后被调用。这个钩子允许开发者注册 Nitro 钩子,并直接与 Nitro 进行交互。这种灵活性使…

【人脸伪造检测后门攻击】Imperceptible Face Forgery Attack via Adversarial Semantic Mask

原文Github地址:https://github.com/clawerO-O/ASMA一、研究动机 ​ 目前的后门攻击模型是基于数字像素上的操作,例如增加噪声,从而使得深度模型在推理阶段表现为不正常,但这种attack隐蔽性很差,可以被人眼所观察到。因为这些模型是在整个面部区域增加对抗性扰动,增加了许…

MTR: 网络排查神器 / 网络诊断工具介绍

原创 晓致知 电脑知识MTR(My Traceroute)是一款功能全面且高效的网络诊断工具,它巧妙地将traceroute和ping的功能融为一体。通过MTR,用户可以实时追踪数据包在网络中的传输路径,清晰地看到数据包从源地址到目标地址所经过的所有节点。同时,MTR还能提供详细的网络性能指标…

随想

日复又一日,重复再重复。

相册

国风版,相册 好看的你

锋利的在线诊断工具——Arthas

导航前言 火线告警,CPU飚了 服务重启,迅速救火 黑盒:无尽的猜测和不安 Arthas:锋利的Java诊断工具 在线追踪Cpu占比高的代码段 代码重构,星夜上线,稳了 结语 参考肮脏的代码必须重构,但漂亮的代码也需要很多重构。前言 有些代码在当初编写的时候是非常稳健的,但是随着数…

制作一个ai丛雨(附Python代码)

绫,再一次,再一次创造一个有你的世界😭开一个随笔记录一下我的第一版ai老婆,目前只有普通对话和切换背景的功能(后面可能会加一个选人物功能)先放一个效果图(看起来还行)代码和注意事项都放在了下面,应该没什么大问题,复制粘贴导包就能用了注意事项: 1、代码推荐使…

东方娱乐周刊

学科领域: 人文社科-教育学、文学、艺术、体育、人文社科:其他@目录一、征稿简介二、重要信息三、服务简述四、投稿须知 一、征稿简介二、重要信息期刊官网:https://ais.cn/u/3eEJNv三、服务简述 学科领域: 人文社科-教育学、文学、艺术、体育、人文社科:其他 四、投稿须知…

2024-2025-1 学号20241315《计算机基础与程序设计》第六周学习总结

作业信息这个作业属于哪个课程 2024-2025-1-计算机基础与程序设计这个作业要求在哪里 https://www.cnblogs.com/rocedu/p/9577842.html#WEEK06这个作业的目标 Polya如何解决问题 简单类型与组合类型 复合数据结构 查找与排序算法 算法复杂度 递归 代码安全作业正文 https://www…

Foods

生物活性化合物是食物中天然存在的物质,除了基本营养外,还能提供额外的健康益处。这些化合物具有特定的功能特性,对人类健康有直接影响。了解生物活性化合物发挥作用的潜在机制对于其在预防和治疗各种疾病方面的潜在应用至关重要。本期特刊的目的是整理原创研究文章和评论,…

第一周学习总结:计算机发展史及liunx系统安装

# 计算机发展相关历史 1.第一代(1946-1957年):电子管计算机 电子管计算机(1946-1957)这一阶段计算机的主要特征是采用电子管元件作基本器件,用光屏管或汞延时 电路作 存储器,输入与输出主要采用 穿孔卡片或纸带,体积大、耗电量大、速度慢、存储容量小、可靠性差、维护困…