ClearCLIP:倒反天罡,删除两个组件反而可以提升密集预测性能 | ECCV24

news/2025/1/22 12:22:20/文章来源:https://www.cnblogs.com/VincentLee/p/18512185

来源:晓飞的算法工程笔记 公众号,转载请注明出处

论文: ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference

  • 论文地址:https://arxiv.org/abs/2407.12442
  • 论文代码:https://github.com/mc-lan/ClearCLIP

创新点


  • 发现两个关键因素在将CLIP适配密集视觉-语言推理中起着至关重要的作用:残差连接影响的减少以及通过自注意力机制的空间信息重组。
  • 提出ClearCLIP,在CLIP的最后一层中进行了三项简单的修改:去除残差连接、最后一个注意力层中采用自注意力机制以及舍弃前馈网络(FFN)。这些修改旨在增强注意力输出,从而为开放词汇语义分割任务生成更清晰的表示。

内容概述


尽管大规模预训练的视觉-语言模型(VLMs),特别是CLIP在各种开放词汇任务中取得了成功,但它们在语义分割中的应用仍然面临挑战,常常产生噪声分割图,存在误分割区域。

论文仔细重新审视了CLIP的架构,并确定残差连接是降低分割质量的主要噪声源。通过对不同预训练模型中残差连接与注意力输出的统计特性进行比较分析,发现CLIP的图像-文本对比训练范式强调全局特征,而牺牲了局部可区分性,从而导致噪声分割结果。

为此,论文提出了ClearCLIP,这是一种新颖的方法,旨在分解CLIP的表示,以增强开放词汇语义分割。对最终层进行了三项简单的修改:去除残差连接、最后一个自注意力层中采用自注意力机制以及丢弃前馈网络。ClearCLIP可以一致地产生更清晰、更准确的分割图,并在多个基准测试中超过现有方法。

ClearCLIP


基于ViTCLIP模型由一系列残差注意力块组成。

舍弃残差连接

通过比较COCOStuff数据集中CLIP-B/16CLIP-L/14模型最后一个模块的残差连接 \(X_{{res}}\) 与不同注意力输出 \(X_{{attn}}\) 的范数来开始分析,可以很容易地观察到这两个子图的共性和差异:

  1. 共性在于mIoU曲线和 \(X_{attn}\) 的范数曲线表现出一定程度的正相关。
  2. 差异包括:1CLIP-B/16\(X_{res}\) 的范数远小于CLIP-L/14的范数;2CLIP-B/16中的注意力修改在q-k基线之上表现出一致的改善,而CLIP-L/14中的情况则没有。

因此,当 \(X_{res}\) 的影响(或范数)最小化时,注意力修改才是有效的。换句话说, \(X_{res}\) 显著削弱了CLIP在密集推断任务上的表现。

为了验证这一假设,基于CLIP-B/16使用 \(X_{{sum}}\)\(X_{{res}}\)\(X_{{attn}}\) 进行开放词汇语义分割实验。COCOStuff数据集上的实验结果如图3所示,发现 \(X_{res}\)mIoU接近于零,这表明残差连接可能对图像分割没有帮助。相反,仅使用 \(X_{{attn}}\)mIoU显著高于 \(X_{{sum}}\) 。图3中的可视化结果表明,CLIP的噪声分割图可以分解为一个模糊的 \(X_{{res}}\) 图和一个更清晰的 \(X_{{attn}}\) 图。根据这些实验结果,可以初步得出结论:分割图中的噪声主要来源于残差连接。

为了进一步证明 \(X_{res}\) 如何影响CLIP的性能,引入了一个缩放因子 \(\alpha\) ,使得 \(X_{{sum}} = X_{{res}} + \alpha X_{{attn}}\) ,该因子控制 \(X_{attn}\) 相对于 \(X_{res}\) 的相对影响。实验表明表明更大的 \(\alpha\) 显著提升了性能,这清楚地说明了 \(X_{{res}}\) 对性能的不利影响。

最后,论文建议直接舍弃残差连接以在密集的视觉-语言推理任务中实现最佳性能。

舍弃前馈网络(FFN

Transformer架构中的前馈网络(FFN)在建模数据中的关系和模式方面起着至关重要的作用,但最近的研究显示,FFN在推理过程中对图像表示的影响微乎其微。最后一个注意力模块中的FFN特征与最终分类特征的余弦角度明显更大,因此建议在密集预测任务中舍弃FFN

在应用于基础CLIP模型时,论文发现移除FFN对开放词汇语义分割任务的影响较小。但当与去除残差连接相结合时,舍弃FFN会导致结果的改善,特别是在模型规模较大的情况下。这种改进的原理在于,去除残差连接显著改变了FFN的输入,从而影响其输出。因此,去除FFN的输出可能会减轻其对性能的负面影响。

自注意力机制

基于上述分析,使用最后一个自注意力层的注意力输出用于视觉-语言推理。

\[\begin{equation} X^{{visual}} = X_{{attn}} = {Proj}({Attn}_{(\cdot) (\cdot)} \cdot v), \label{eq:solution} \end{equation} \]

受到之前工作的启发,可以在注意力机制 \({Attn}_{(\cdot) (\cdot)}\) 中使用不同的查询-键组合。实际上, \({Attn}_{qq}\) 在大多数情况下始终能够实现更好的性能,因此选择默认使用它。

主要实验




如果本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】

work-life balance.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/823570.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

项目升级到.Net8.0 Autofac引发诡异的问题

前两天把项目升级到.Net8.0了,把.Net框架升级了,其他一些第三方库升级了一部分,升级完以后项目跑不起来了,报如下错误: An unhandled exception occurred while processing the request. DependencyResolutionException: None of the constructors found with Autofac.Cor…

GaussDB 数据导入导出工具介绍

一、数据导入导出场景划分gsql工具适用场景和使用方法适用场景 文本格式对象定义的创建 使用方法 gsql -d db1 -p 16000 -U u1 -W Huawei@123 -f/data/table.sql示例: ALTER SESSION SET CURRENT_SCHEMA = PUBLIC;ALTER TABLE "PUBLC".GA_COM_COLLECTION_ERROR_TABL…

tag 转 branch 前 记得 Fetch 一下 - git基础

tag 转 branch 前 记得 Fetch 一下 - git基础 遇到的问题 当直接在远程的gitlab创建一个新的tag的时候(非本人创建),你本地是没有这个tag,所以你直接用这个tag名称转branch,会出现找不到tag的情况,需要Fetch一下即可。--------------------------------------------- 生活…

GaussDB多租组件

云原生数据库支持多租户,通过多租户资源共享,一是降低租户的成本,二是通过共享资源的池化实现租户的资源弹性,提高租户业务的可用性。 租户的资源弹性支持两种模式,Scale Up和Scale Out。Scale Up是在单个计算节点上对租户的分配资源进行弹性处理,Scale Out是在计算节点之…

Attention mechanism目前有什么缺点和改进空间

Attention mechanism是自然语言处理和计算机视觉领域的一项重要技术,但存在一些缺点和改进空间。主要缺点包括:1.计算复杂性高;2.缺乏解释性;3.可能产生不必要的注意力分配;其中,计算复杂性高可能限制了在大规模数据上的应用。改进方向包括:1.优化算法效率;2.增强模型解…

PbootCMS登录后权限不足怎么办

登录后权限不足问题描述:登录后无法访问某些功能或页面,提示权限不足。 解决方案:检查用户角色和权限:确保当前用户的角色和权限设置正确。 检查权限配置:检查PBootCMS的权限配置文件,确保没有错误的配置。 重新分配权限:在后台管理中,重新分配用户的角色和权限。 检查…

PbootCMS网站打开提示:“无法连接到数据库!”

网站打开提示:“无法连接到数据库!”问题原因:数据库配置不正确或数据库服务未启动。 解决方法:检查 config/database.php 文件中的数据库配置信息是否正确,包括数据库地址、端口、用户名、密码和数据库名称。 确保数据库服务已启动,并且可以从 Web 服务器访问。扫码添加…

智子: Vue Vapor年底发布alpha版本,如果有资金支持

前言 在最近的Vue Fes大会上,Vue Vapor的作者智子大佬宣布,如果能够得到资金支持,那么Vue Vapor年底就能发布alpha版本了。 关注公众号:【前端欧阳】,给自己一个进阶vue的机会 智子也需要赚钱养活自己 根据尤大透露,过去一年以来智子接受赞助全职在为Vue Vapor工作。现在…

帝国cms调用当前顶级栏目下所有下级子栏目并且当前高亮显示啊

[e:loop={"select classname,classpath,classid from phome_enewsclass where bclassid=".$class_r[$GLOBALS[navclassid]][bclassid]." order by myorder,classid desc ",0,24,0}] <?php $classurl=sys_ReturnBqClassname($bqr,9);?> <a href=…

帝国cms一句MySQL语句实现多表数据之和

SQL语句:SELECT COUNT(AA.id) AS total FROM (SELECT id FROM www_moban5_cn_ecms_newsUNION ALLSELECT id FROM www_moban5_cn_ecms_xiazaiUNION ALLSELECT id FROM www_moban5_cn_ecms_photoUNION ALLSELECT id FROM www_moban5_cn_ecms_download ) AA;在帝国CMS后台使用:SEL…

无缝对接,高效协同:能源电力行业的文件摆渡方案新鲜出炉!

在能源电力行业,涉及大量敏感信息和重要数据需要得到严格保护,比如电力生产与供应链数据、电网运行与维护数据、用户信息与用电数据、研发与创新数据等。随着企业的不断发展,企业数字化转型的逐渐深入,需要重点关注数据安全。因此大部分能源电力企业会将网络划分成内网和外…

PbootCMS 织梦后台左侧菜单空白不显示的解决办法

权限问题:检查 data 文件夹及其子文件夹是否有写入权限,确保在Linux和Windows系统中都正确设置了权限。 对于Linux系统,可以通过命令行使用 chmod -R 777 data 命令赋予写入权限;对于Windows系统,则需要通过文件属性手动设置。缺少必要的文件夹:如果 /data/cache/, /data…