文章目录
- 1. 【2022ECCV】Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning
- 摘要和结论
- 引言
- 模型框架
- 实验
- 2. 【2023CVPR】Learning to Generate Language-supervised and Open-vocabulary Scene Graph using Pre-trained Visual-Semantic Space
- 摘要和结论
- 引言
- 模型框架
- 实验
- 3. 【2023-11-18】Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph Generation via Visual-Concept Alignment and Retention
- 摘要和结论
- 引言
- 模型框架
- 实验
- 不足之处
场景图生成 (SGG,scene graph generation) 是一项旨在检测图像中对象之间的视觉关系的基本任务。
而流行的SGG方法需要在训练集中给出所有对象类。这样的封闭设置限制了SGG的实际应用,但随和LLM的发展,使得open vocabulary成为可能。
1. 【2022ECCV】Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning
论文阅读:Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning(ECCV22)
摘要和结论
- 提出了一种两步法,该方法首先对大量粗粒度 region-captain 数据进行预训练,然后利用两种基于 prompt 的技术对预训练模型进行微调,而不更新其参数。
引言
-
SGG数据集中的长尾分布被确定后,许多工作试图通过利用去偏技术来减少数据中偏误的影响。
-
在现实世界的场景中,SGG模型很可能遇到训练集中没有出现的看不见类别的对象 objects。这促使我们提出一个问题,我们能预测看不见的物体(unseen objects)的视觉关系吗?形式上,我们将这个问题称为开放词汇场景图生成(Ov-SGG,Open-vocabulary Scene Graph Generation)。
-
Zs-SGG致力于预测其组合没有出现在训练集中的对象的关系,其中对象都来自可见类别。相反,在Ov-SGG中,在推理时,不仅对象组合可能是新颖的,对象类别本身可能在训练期间没有被模型看到。图1显示了Ov SGG与其封闭世界对应产品之间的比较。此外,我们提出了一种更现实、更具挑战性的设置general open-vocabulary SGG,其中测试集包含在训练过程中看不到的新颖关系谓词。
-
提出了一种分两步进行视觉关系预训练(visual-relation pre-training)和基于提示的微调(prompt-based finetuning)的方法。
-
与在整个图像及其字幕上预先训练的视觉语言模型不同,我们利用了Visual Genome的密集字幕,这些字幕专注于详细的区域语义,因为我们相信密集字幕可以提供更本地化的关系信息。
其次,我们设计了两种基于提示的学习策略,即硬提示和软视觉关系提示。经过预训练的模型通过在设计的提示中填空来进行预测。
模型框架
Pretrained context-aware visual-relation model (VRM) :
使用无界词汇关系语料库来训练模型,防止由于Ob的数量较少,可能会导致严重的过度拟合问题。此外,大多数VL模型[35,15]完全尝试在固定方案中将图像捕获对中的视觉概念与其全局文本语义对齐,但图像中相同的对象在SG中可能具有不同的关系,这取决于对中的另一个对象
the pre-trained model should be able to map a visual component into various relation concepts according to its regional context
这种能力在之前的预训练模型中是不可用的[35,25,15]。为了实现这一目标,我们建议使用两个基于transformer的图像和文本编码器在VG的密集标题上训练区域上下文感知视觉关系模型(图2左侧)。
具体module的介绍参考这篇论文:
论文阅读:Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning(ECCV22)
实验
数据集:主要看VG
评价指标:
与strong baseline的比较,基于VG数据集:
传统-开放词汇-zero-shot
消融实验
(1)FT-p 使用[59]中的预训练模型而不是我们的 VRM,即没有预训练;
(2) FT使用Sec.4.2中描述的标准微调策略;
(3) HardPro 使用第 4.2 节中描述的硬提示微调;
(4)SVRP-d去除SVRP的解码器网络T。
2. 【2023CVPR】Learning to Generate Language-supervised and Open-vocabulary Scene Graph using Pre-trained Visual-Semantic Space
摘要和结论
- 本文主要介绍了一种利用预训练视觉-语义空间(VSS)来解决场景图生成(SGG)中的两个难点的方法:1)训练SGG模型需要耗费大量时间和人力进行地面真实注释, 2)现有的SGG模型通常涉及预定义的有限物体类别,限制了它们识别训练语料库之外的新颖物体的能力。
- 作者提出了一种新颖的方法,通过将图像语言描述解析为语义图形,并在预先训练的VSS中进行区域-词对齐来轻松获得廉价的场景图监督数据,从而实现语言监督和开放词汇量的SGG。作者还提出了一种名为VS3的SGG模型,该模型将原始图像和包含物体类别名称的文本提示作为输入,并将其投影到共享的VSS作为嵌入。在基于visual grounding视觉定位的基础上,自然构建了关系表示,以追求开放词汇量的SGG。
引言
- 最近的扎根语言图像预训练(GLIP)[17]已经学习了对象级和语义丰富的VSS。基于学习到的 VSS,它在短语定位和零样本目标检测 phrase grounding and zero-shot object detection 方面建立了新的最先进的性能。这表明这种预训练的VSS具有强大的多模态对齐能力(即,具有相似语义的图像区域和文本短语得到紧密嵌入)和开放的词汇泛化能力(即几乎覆盖预训练的图像-文本语料库中的任何概念)。
- 这激发了我们使用预先训练的VSS解决SGG中上述障碍的想法。一方面,利用其多模态对齐能力,我们可以从图像描述中廉价地获得场景图监督(例如,检索与名词短语对齐的图像区域,并将描述重新排列成类似场景图的形式)。另一方面,通过利用其开放的词汇泛化能力,它有望在SGG中实现新的类别预测
- 后续工作从图像标题中提取实体和关系来组成这种未定位的场景图,这是通过现成的语言解析器实现的。接下来,他们遵循一个常见的范例:首先将文本实体定位到图像区域,然后利用接地场景图作为伪标签来训练标准 SGG 模型。
模型框架
它继承了GLIP[17]中的图像编码器、文本编码器和跨模态融合模块,在预训练的视觉语义空间(VSS)中投影图像区域和文本提示词。
作者论文写的使用GLIP部分可以参考一下。
Relation embedding module 关系嵌入模块: 为了进一步使VS3具有关系识别能力,我们设计了关系嵌入模块来构建关系表示。通过在训练期间将预测的边界框 ^B 与真实对象进行匹配,以及在推理时保留非极大值抑制 (NMS) 后具有最高置信度分数的前 N ′ 区域来实现的。接下来,我们为所有可能的主客体对构建关系表示。
Obtaining Language Scene Graph Supervision:
具体而言,对于每个图像语言描述,我们使用基于[39]的标准场景图解析器将其解析为语义图SGtext = {Otext,Rtext}。该解析器不仅提取名词短语作为实体/对象(Otext),还提取描述它们关系的词语(Rtext)。例如,句子“a woman is playing the piano in the room.”被解析为SGtext,其中Otext = {woman, piano, room},Rtext ={⟨0, playing, 1⟩, ⟨0, in, 2⟩}(数字表示对象索引)。考虑到解析的对象/关系词是自由形式的,我们通过规则(如直接字符串匹配和WordNet [33]同义词匹配,遵循[65])将它们映射到我们关注的类别(例如,在实验中的VG150对象/关系类别)。
Transferring to Open-vocabulary SGG: Open-vocabulary SGG 的目标是训练能够识别新类别对象及其相关关系的SGG模型。具体而言,我们使用包含基本类别集合Cbase o中对象的场景图来训练SGG模型。在推断阶段,对象类别集合为新类别。回到我们提出的VS3,通过冻结图像和文本编码器,我们维护了一个开放词汇的VSS。利用这一优势,我们设计了一种方案来使VS3适用于开放词汇的SGG。具体而言,在训练期间,我们将文本提示设置为 “name(c1). name(c2). … name(c|C_base |).”,其中 ci ∈ Cbase o。只有涉及基本对象类别的关系三元组被保留用于训练。在推断阶段,文本提示切换为 “name(c1). name(c2). … name(c|C_target |).”,其中 ci ∈ C_target。这样,新的对象类别(例如,lady)可能具有接近基本类别(例如,woman)嵌入的嵌入。这使得新类别也能够找到与之对齐的图像区域。注意,关系表示是从视觉和空间线索构建的,通常与类别无关。因此,在VS3中遇到新对象时,后续的关系识别不会受到影响。
实验
评价指标:根据之前的工作报告了 Recall@K (K=20/50/100) 上的性能,该工作测量了前 K 个预测中正确预测的关系三元组的比例。当三元组预测的主语、宾语、谓语标签以及主语和宾语区域与(相同标签或 IoU>0.5)地面实况三元组匹配时,三元组预测被认为是正确的。请注意,我们使用图约束获得三元组预测,这限制每个主宾对仅具有最置信的谓词。
与强基线模型的对比:
新的setting:Language-supervised results.
效果可视化:
3. 【2023-11-18】Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph Generation via Visual-Concept Alignment and Retention
摘要和结论
- 为了实现完全开放的词汇SGG,我们设计了一个带有transformer的统一框架,名为OvSGTR。所提出的框架不仅学习将视觉特征和概念信息与基本对象对齐,而且还与关系类别对齐,并概括新对象和关系类别。
- 为了获得关系的可转移表示,我们利用图像标题数据 image-caption data 作为关系感知预训练的弱监督。此外,采用通过知识蒸馏的视觉概念保留来缓解涉及开放词汇SGG的灾难性遗忘问题。
引言
- 提出了两个关键问题,这两个问题是我们研究的驱动力:该模型能否预测看不见的物体或关系?如果模型同时遇到看不见的对象和看不到的关系,该怎么办?
- 闭集SGG专注于长尾问题的特征聚合和无偏学习。OvD-SGG从节点角度(对象类别)扩展了闭集SGG,然而,它仍然在一组有限的关系上运作。
- 我们介绍了OvSGTR,这是一个新的框架,旨在解决开放词汇SGG的复杂性。我们的方法不仅预测了看不见的对象或关系,而且还处理了在训练阶段对象和关系类别都不可见的具有挑战性的场景。OvR-SGG从边角度(谓语词、关系)引入开放词汇设置,要求模型预测看不见的关系,由于缺乏预先训练的关系感知模型以及对不太准确的场景图注释的依赖,这是一项更具挑战性的任务
- OvSGTR对节点和边缘采用可视化概念对齐策略,利用图像字幕数据 image-caption data 进行弱监督关系感知预训练。该框架包括三个主要组件:用于视觉特征提取的冻结图像主干、用于文本特征提取的冻结文本编码器和用于解码场景图的transformer。
模型框架
3.1. Fully Open Vocabulary Architecture:
我们方法的核心是两个关键组成部分:视觉概念对齐和视觉概念保留。 该框架采用可变形的DETR进行对象定位,并辅以文本编码器,为视觉概念对齐提供概念信息。针对OvR-SGG 和 OvD+R-SGG设置带来的挑战,我们集成了一种专门设计的知识提取方法,以确保视觉概念的保留,减少灾难性遗忘,并保持语义空间的完整性。
特征的提取和prompt的设计:
节点和边的表示:
bbox头是3层MLP,cls由文本特征和隐层特征的相似度计算得来。隐藏层特征用作预测节点的视觉表示
轻量级的关系头,它将主语和客体的节点特征以及关系查询特征连接起来。
损失函数:
3.2 Learning Visual-Concept Alignment
视觉概念对齐 将节点或边缘的视觉特征与相应的文本特征相关联。对于节点级(objects)对齐,以图像为例,模型将输出 K 个预测节点 {̃vi}K i=1。这些预测节点必须与 N 个真实节点{vi}N i=1 匹配并对齐。该匹配被表述为二部图匹配,类似于标准 DETR 中的方法。这可以表示为
这里,sim(·,·)衡量预测节点与真实节点之间的相似度,通常同时考虑位置(即边界框)和类别信息。我们直接最大化其相似度,其中边界框之间的距离由 L1 和 GIoU 损失决定,类别相似度描述为
其中 wvi 是节点 vi 的词嵌入,vj 是预测节点 ̃vj 的视觉表示,<·,·> 指两个向量的点积,σ 指 sigmoid 函数。这个方程。 (3) 寻求将节点的视觉特征与其在文本空间中的原型对齐。
为了将关系识别从封闭集扩展到开放词汇,一种直观的想法是学习视觉语义空间,其中关系的视觉特征和文本特征对齐。具体来说,给定文本输入 t 和文本编码器 Et、关系特征 e,对齐得分定义为
其中f是一个全连接层,<·,·>指的是两个向量的点积。一旦计算出对齐分数,我们就可以根据给定的GT计算二元交叉熵损失。损失可以表示为
其中σ指的是sigmoid函数,ye是一个单热向量,其中“1”索引正标记,P、N指的是关系的正样本和负样本集。
学习这种视觉概念对齐并非易事,因为在大规模数据集上缺乏关系感知的预训练模型相比之下,对象语言对齐可以从 CLIP 和 GLIP 等预训练模型中受益。另一方面,场景图的手动标注既耗时又昂贵,这使得很难获得大规模的SGG数据集。
为了解决这个问题,我们利用 图像标题数据作为关系感知预训练的弱监督。 具体来说,给定一个没有边界框注释的图像标题对image-caption data,我们利用现成的语言解析器来解析标题中的关系三元组。这些关系三元组通过匈牙利匹配与预测节点相关联。并且只有具有高置信度的三元组(例如,主体和客体的对象分数都大于0.25)被保留在场景图中作为伪标签。利用这些伪标签作为弱监督的一种形式,该模型能够学习丰富的对象概念以及与图像标题数据的关系。
3.3. Visual-Concept Retention with Knowledge Distillation
然而,我们凭经验发现,即使有关系感知的预训练模型,直接在新数据集上通过公式(5)优化模型会导致灾难性遗忘。
另一方面,在 OvR-SGG 或 OvD+R-SGG 设置中,看不见的(或新颖的)关系被从图中删除,这增加了难度,因为模型需要区分新颖的关系和“背景”。为了缓解这个问题,我们采用知识蒸馏策略来保持学习语义空间的一致性。具体来说,我们使用在图像标题数据上预训练的初始化模型作为教师。教师学习了丰富的关系语义空间,例如,从 COCO 标题 [3] 数据中解析出~2.5k 个关系类别。对于相同的负样本,学生的边缘特征应该与老师的边缘特征一样接近。因此,关系识别的损失可以表示为
通过这种知识蒸馏,模型可以获得更准确的基类信息,同时在新数据集上进行微调时保留未见过的类别的能力。这使得它对于管道来说更加实用:对大规模图像标题数据进行预训练,并对更可靠但有限的数据集进行微调。
实验
Closed-set SGG Benchmark
OvD-SGG Benchmark.
OvR-SGG Benchmark.
OvD+R-SGG Benchmark.
“联合 Base+Novel”(即考虑的所有对象和关系类别)、“Novel (Object)”(即只考虑新的对象类别)和“Novel (Relation)”(即只考虑关系类别)。