Text Augmented Spatial-aware Zero-shot Referring Image Segmentation论文阅读笔记(EMNLP23 Findings)

news/2024/11/16 2:39:26/文章来源:https://www.cnblogs.com/lipoicyclic/p/18397578

Motivation & Method

关注的任务为zero-shot referring image segmentation,模型无法获得pixel-level的分割标注。之前的方法通常使用预训练的多模态模型如CLIP,然而CLIP使用图像文本对进行训练,难以做到image local patch与referring sentence的细粒度对齐。为此作者提出了TAS。TAS包含了一个mask proposal network用于提取instance level的mask,一个用于挖掘图像-文本相关性的文本增强视觉-文本匹配分数,以及一个用于mask后处理的空间校正器。三个数据集的结果表明方法取得了sota。

Method

截屏2024-09-02 17.43.44

Mask Proposal Network

直接将CLIP用于密集预测任务效果不好,可以采用分阶段提取mask+masked image-text matching的方式。以前的工作利用 FreeSOLO(类别无关的实例分割网络)来获取所有掩码。然而最近提出的SAM在分割单个对象方面表现出强大的性能,特别是对于遮挡等场景而言。因此文章中的mask proposal network选择了SAM。

Text-augmented visual-text matching score

mask proposal network提供的mask并不包含语义信息,一种方法是使用masked image与text计算score,然而CLIP可能不适用于细粒度的region-text matching,且masked image与natural image可能存在domain gap。为此作者使用补充文本挖掘区域信息,引入了一个由 V 分数、P 分数和 N 分数组成的文本增强视觉-文本匹配分数。

V-score。给定三通道RGB图像与一个referring expression,SAM首先提取若干个binary mask,将每个mask施加到图像上,对前景部分裁剪然后送入CLIP visual encoder,使用提取得到的visual feature与text feature计算cosine similarity。

P-score。如前所述,natural image和masked image之间的domain gap影响视觉-文本对齐。为此作者引入P-score,借助captioning model提升对齐的质量。具体做法是通过一个captioning model为masked image生成一个互补的caption,之后计算P scpre:

截屏2024-09-05 00.18.47

N-score。N score主要是针对图像中与参考表述无关的情况。为了挖掘不相关的表达,作者首先为输入图像生成一个总体描述,总体描述总结了图像中的所有物体,然后使用spaCy从描述中提取名词短语,并将它们视为潜在的负面表达。同时,在指代表达中可能存在指示同一物体的短语。为了避免这种情况,作者使用WordNet消除包含指代表达中主体同义词的短语。具体做法是计算两个同义词集的路径相似度来决定是否消除同义词。截屏2024-09-05 00.37.41

最终的分数以及mask选择:截屏2024-09-05 00.42.37

Spatial Rectifier

CLIP的训练过程无法使其理解参考表述的空间关系。为此,作者提出了一个基于规则的空间解析器用于后处理,强制框架从特定区域选择遮罩。该过程可以分解为三个步骤:方向描述识别、位置计算和空间校正。

方向描述识别。首先通过spaCy提取指代表达Tr的主题的描述性词汇,并检查是否有“上、下、左、右”等方向词。如果在描述性词汇中没有发现方向词,则不应用空间校正。

位置计算。其次,为了空间校正预测,需要每个mask proposal的位置信息。每个mask的中心点被用作位置的代理。具体来说,每个遮罩的中心点位置是通过平均所有前景像素的坐标来计算的。

空间校正。在获得中心点位置后选择在相应方向区域下总体得分S最高的mask。

实验

截屏2024-09-05 00.59.07

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/792370.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Error response from daemon: This node is not a swarm manager.

转载请注明出处:在环境上通过 docker 查看节点列表时,报错如下:解决方法: 具体code如下:root@controller1:~# docker swarm init --advertise-addr 127.0.0.1 Error response from daemon: This node is already part of a swarm. Use "docker swarm leave" to …

全网最适合入门的面向对象编程教程:45 Python 实现常见数据结构-链表、树、哈希表、图和堆

数据结构是计算机科学中的一种组织和存储数据的方式,它决定了数据的访问方式和操作效率,数据结构的选择和实现对程序的性能和设计至关重要。本文主要讲述了如何使用Python语言和内置库实现常见数据结构。全网最适合入门的面向对象编程教程:45 Python 实现常见数据结构-链表、…

Unicode编码介绍

什么是Unicode编码? Unicode是字符编码规范,它定义了所有文字的编码规则。说通俗点就是它按照某个规则给每个字符都分配了一个数字编号(比如:A的编号为65或0x0041,万的编号为19981或0x4e0d),相当于是一个编号库。这个数字编号也叫Unicode码。最开始这个编号使用2个字节表…

LeetCode题集-2 - 两数相加

递归法和迭代法有什么差别,通过两数相加算法来搞明白,一举多得这个题目是什么意思呢?简单来说就是把两个链表平铺开,头节点对齐,然后从头开始相同的节点相加,满10则进位,进位值与下个节点继续相加,当一个链表没有节点时候则可以把没有节点当做0继续与有节点的链表继续相…

pytesseract实现识别pdf文件并将内容写入word文档中

步骤一:先安装tesseract-ocr-w64-setup-5.4.0.20240606 (安装记得语言包只安装需要的即可) 步骤二:将安装目录添加到系统环境变量中 (网上很多这一步之后就说可以运行程序了其实不然,一直报错没有添加到环境变量中) 步骤三:第四步:可以正常运行啦 =================…

消息中间件ms

消息中间件rabbitmq如何保证数据不丢失 MQ高级搜消息可靠性 常用于mq重复消费问题解决 搜消费者重复消息问题延迟队列有了解过吗?(私信交换机) 搜延迟消息如果有100w的消息堆积到mq怎么办(消息堆积)高可用机制了解过吗

9种最高频的架构模式

这9种最高频的架构模式了解一下,什么样的业务适合事件驱动,什么样的业务适合ETL,什么类型的服务依赖streaming,分别有什么样的特征最好事前准备,我的专栏会分析每种架构的方法论和面试注意事项,感兴趣的可以关注

gadget驱动框架(一)

之前在linux移植udc驱动的时候,没有深入的理解整个gadget驱动框架,现在重新再屡屡gadget驱动,以便后期再次学习。本系列的文章以虚拟串口进行分析,相关源码均是基于linux4.19.123。 gadget驱动框架 gadget源码主要在:drivers/usb/gadget,以虚拟串口为例,对源文件做简单说…

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model(2024,8)

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model(2024,8) Paper TODO: 目前没有开源代码,实时关注一下official code,Meta的工作基本开源的.本文给出了一种新的T2I的方法. lucidrains的代码本质是将LLM的transformer和图像中的diffusion结…

代码整洁之道--读书笔记(1)

代码整洁之道简介: 本书是编程大师“Bob 大叔”40余年编程生涯的心得体会的总结,讲解要成为真正专业的程序员需要具备什么样的态度,需要遵循什么样的原则,需要采取什么样的行动。作者以自己以及身边的同事走过的弯路、犯过的错误为例,意在为后来者引路,助其职业生涯迈上更…

Towards Robust Blind Face Restoration with Codebook Lookup Transformer(NeurIPS 2022) | Codeformer

Towards Robust Blind Face Restoration with Codebook Lookup Transformer(NeurIPS 2022) 这篇论文试图解决的是盲目面部恢复(blind face restoration)问题,这是一个高度不确定的任务,通常需要辅助指导来改善从低质量(LQ)输入到高质量(HQ)输出的映射,或者补充输入中丢…

[MySQL]B+树能存储多少数据

MySQL中一个B+树能存储多少数据MySQL中InnoDB页的大小默认是16k。也可以自己进行设置。(计算机在存储数据的时候,最小存储单元是扇区,一个扇区的大小是 512 字节,而文件系统(例如 XFS/EXT4)最小单元是块,一个块的大小是 4KB。 InnoDB 引擎存储数据的时候,是以页为单位的…