Text Augmented Spatial-aware Zero-shot Referring Image Segmentation论文阅读笔记(EMNLP23 Findings)-编程知识

Text Augmented Spatial-aware Zero-shot Referring Image Segmentation论文阅读笔记(EMNLP23 Findings)

news/2025/3/12 9:53:53/文章来源:https://www.cnblogs.com/lipoicyclic/p/18397578

Motivation & Method

关注的任务为zero-shot referring image segmentation，模型无法获得pixel-level的分割标注。之前的方法通常使用预训练的多模态模型如CLIP，然而CLIP使用图像文本对进行训练，难以做到image local patch与referring sentence的细粒度对齐。为此作者提出了TAS。TAS包含了一个mask proposal network用于提取instance level的mask，一个用于挖掘图像-文本相关性的文本增强视觉-文本匹配分数，以及一个用于mask后处理的空间校正器。三个数据集的结果表明方法取得了sota。

Method

截屏2024-09-02 17.43.44

Mask Proposal Network

直接将CLIP用于密集预测任务效果不好，可以采用分阶段提取mask+masked image-text matching的方式。以前的工作利用 FreeSOLO（类别无关的实例分割网络）来获取所有掩码。然而最近提出的SAM在分割单个对象方面表现出强大的性能，特别是对于遮挡等场景而言。因此文章中的mask proposal network选择了SAM。

Text-augmented visual-text matching score

mask proposal network提供的mask并不包含语义信息，一种方法是使用masked image与text计算score，然而CLIP可能不适用于细粒度的region-text matching，且masked image与natural image可能存在domain gap。为此作者使用补充文本挖掘区域信息，引入了一个由 V 分数、P 分数和 N 分数组成的文本增强视觉-文本匹配分数。

V-score。给定三通道RGB图像与一个referring expression，SAM首先提取若干个binary mask，将每个mask施加到图像上，对前景部分裁剪然后送入CLIP visual encoder，使用提取得到的visual feature与text feature计算cosine similarity。

P-score。如前所述，natural image和masked image之间的domain gap影响视觉-文本对齐。为此作者引入P-score，借助captioning model提升对齐的质量。具体做法是通过一个captioning model为masked image生成一个互补的caption，之后计算P scpre：

截屏2024-09-05 00.18.47

N-score。N score主要是针对图像中与参考表述无关的情况。为了挖掘不相关的表达，作者首先为输入图像生成一个总体描述，总体描述总结了图像中的所有物体，然后使用spaCy从描述中提取名词短语，并将它们视为潜在的负面表达。同时，在指代表达中可能存在指示同一物体的短语。为了避免这种情况，作者使用WordNet消除包含指代表达中主体同义词的短语。具体做法是计算两个同义词集的路径相似度来决定是否消除同义词。截屏2024-09-05 00.37.41