开放词汇场景图生成Open vocabulary scene graph generation

文章目录

  • 1. 【2022ECCV】Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning
    • 摘要和结论
    • 引言
    • 模型框架
    • 实验
  • 2. 【2023CVPR】Learning to Generate Language-supervised and Open-vocabulary Scene Graph using Pre-trained Visual-Semantic Space
    • 摘要和结论
    • 引言
    • 模型框架
    • 实验
  • 3. 【2023-11-18】Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph Generation via Visual-Concept Alignment and Retention
    • 摘要和结论
    • 引言
    • 模型框架
    • 实验
    • 不足之处

场景图生成 (SGG,scene graph generation) 是一项旨在检测图像中对象之间的视觉关系的基本任务。
而流行的SGG方法需要在训练集中给出所有对象类。这样的封闭设置限制了SGG的实际应用,但随和LLM的发展,使得open vocabulary成为可能。

在这里插入图片描述

1. 【2022ECCV】Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning

论文阅读:Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning(ECCV22)

摘要和结论

  • 提出了一种两步法,该方法首先对大量粗粒度 region-captain 数据进行预训练,然后利用两种基于 prompt 的技术对预训练模型进行微调,而不更新其参数。

引言

  • SGG数据集中的长尾分布被确定后,许多工作试图通过利用去偏技术来减少数据中偏误的影响。

  • 在现实世界的场景中,SGG模型很可能遇到训练集中没有出现的看不见类别的对象 objects。这促使我们提出一个问题,我们能预测看不见的物体(unseen objects)的视觉关系吗?形式上,我们将这个问题称为开放词汇场景图生成(Ov-SGG,Open-vocabulary Scene Graph Generation)。

  • Zs-SGG致力于预测其组合没有出现在训练集中的对象的关系,其中对象都来自可见类别。相反,在Ov-SGG中,在推理时,不仅对象组合可能是新颖的,对象类别本身可能在训练期间没有被模型看到。图1显示了Ov SGG与其封闭世界对应产品之间的比较。此外,我们提出了一种更现实、更具挑战性的设置general open-vocabulary SGG,其中测试集包含在训练过程中看不到的新颖关系谓词。

  • 提出了一种分两步进行视觉关系预训练(visual-relation pre-training)和基于提示的微调(prompt-based finetuning)的方法。

  • 与在整个图像及其字幕上预先训练的视觉语言模型不同,我们利用了Visual Genome的密集字幕,这些字幕专注于详细的区域语义,因为我们相信密集字幕可以提供更本地化的关系信息。
    其次,我们设计了两种基于提示的学习策略,即硬提示和软视觉关系提示。经过预训练的模型通过在设计的提示中填空来进行预测。

模型框架

在这里插入图片描述 Pretrained context-aware visual-relation model (VRM) :
使用无界词汇关系语料库来训练模型,防止由于Ob的数量较少,可能会导致严重的过度拟合问题。此外,大多数VL模型[35,15]完全尝试在固定方案中将图像捕获对中的视觉概念与其全局文本语义对齐,但图像中相同的对象在SG中可能具有不同的关系,这取决于对中的另一个对象

the pre-trained model should be able to map a visual component into various relation concepts according to its regional context

这种能力在之前的预训练模型中是不可用的[35,25,15]。为了实现这一目标,我们建议使用两个基于transformer的图像和文本编码器在VG的密集标题上训练区域上下文感知视觉关系模型(图2左侧)。

具体module的介绍参考这篇论文:
论文阅读:Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning(ECCV22)

实验

数据集:主要看VG
在这里插入图片描述
评价指标:
在这里插入图片描述
与strong baseline的比较,基于VG数据集:
在这里插入图片描述
传统-开放词汇-zero-shot

在这里插入图片描述

消融实验
(1)FT-p 使用[59]中的预训练模型而不是我们的 VRM,即没有预训练;
(2) FT使用Sec.4.2中描述的标准微调策略;
(3) HardPro 使用第 4.2 节中描述的硬提示微调;
(4)SVRP-d去除SVRP的解码器网络T。

2. 【2023CVPR】Learning to Generate Language-supervised and Open-vocabulary Scene Graph using Pre-trained Visual-Semantic Space

摘要和结论

  • 本文主要介绍了一种利用预训练视觉-语义空间(VSS)来解决场景图生成(SGG)中的两个难点的方法:1)训练SGG模型需要耗费大量时间和人力进行地面真实注释, 2)现有的SGG模型通常涉及预定义的有限物体类别,限制了它们识别训练语料库之外的新颖物体的能力。
  • 作者提出了一种新颖的方法,通过将图像语言描述解析为语义图形,并在预先训练的VSS中进行区域-词对齐来轻松获得廉价的场景图监督数据,从而实现语言监督和开放词汇量的SGG。作者还提出了一种名为VS3的SGG模型,该模型将原始图像和包含物体类别名称的文本提示作为输入,并将其投影到共享的VSS作为嵌入。在基于visual grounding视觉定位的基础上,自然构建了关系表示,以追求开放词汇量的SGG。

引言

  • 最近的扎根语言图像预训练(GLIP)[17]已经学习了对象级和语义丰富的VSS。基于学习到的 VSS,它在短语定位和零样本目标检测 phrase grounding and zero-shot object detection 方面建立了新的最先进的性能。这表明这种预训练的VSS具有强大的多模态对齐能力(即,具有相似语义的图像区域和文本短语得到紧密嵌入)和开放的词汇泛化能力(即几乎覆盖预训练的图像-文本语料库中的任何概念)。
  • 这激发了我们使用预先训练的VSS解决SGG中上述障碍的想法。一方面,利用其多模态对齐能力,我们可以从图像描述中廉价地获得场景图监督(例如,检索与名词短语对齐的图像区域,并将描述重新排列成类似场景图的形式)。另一方面,通过利用其开放的词汇泛化能力,它有望在SGG中实现新的类别预测
  • 后续工作从图像标题中提取实体和关系来组成这种未定位的场景图,这是通过现成的语言解析器实现的。接下来,他们遵循一个常见的范例:首先将文本实体定位到图像区域,然后利用接地场景图作为伪标签来训练标准 SGG 模型。

模型框架

在这里插入图片描述
它继承了GLIP[17]中的图像编码器、文本编码器和跨模态融合模块,在预训练的视觉语义空间(VSS)中投影图像区域和文本提示词。

作者论文写的使用GLIP部分可以参考一下。

Relation embedding module 关系嵌入模块: 为了进一步使VS3具有关系识别能力,我们设计了关系嵌入模块来构建关系表示。通过在训练期间将预测的边界框 ^B 与真实对象进行匹配,以及在推理时保留非极大值抑制 (NMS) 后具有最高置信度分数的前 N ​​′ 区域来实现的。接下来,我们为所有可能的主客体对构建关系表示。
在这里插入图片描述
在这里插入图片描述

Obtaining Language Scene Graph Supervision:
在这里插入图片描述

具体而言,对于每个图像语言描述,我们使用基于[39]的标准场景图解析器将其解析为语义图SGtext = {Otext,Rtext}。该解析器不仅提取名词短语作为实体/对象(Otext),还提取描述它们关系的词语(Rtext)。例如,句子“a woman is playing the piano in the room.”被解析为SGtext,其中Otext = {woman, piano, room},Rtext ={⟨0, playing, 1⟩, ⟨0, in, 2⟩}(数字表示对象索引)。考虑到解析的对象/关系词是自由形式的,我们通过规则(如直接字符串匹配和WordNet [33]同义词匹配,遵循[65])将它们映射到我们关注的类别(例如,在实验中的VG150对象/关系类别)。

在这里插入图片描述
Transferring to Open-vocabulary SGG: Open-vocabulary SGG 的目标是训练能够识别新类别对象及其相关关系的SGG模型。具体而言,我们使用包含基本类别集合Cbase o中对象的场景图来训练SGG模型。在推断阶段,对象类别集合为新类别。回到我们提出的VS3,通过冻结图像和文本编码器,我们维护了一个开放词汇的VSS。利用这一优势,我们设计了一种方案来使VS3适用于开放词汇的SGG。具体而言,在训练期间,我们将文本提示设置为 “name(c1). name(c2). … name(c|C_base |).”,其中 ci ∈ Cbase o。只有涉及基本对象类别的关系三元组被保留用于训练。在推断阶段,文本提示切换为 “name(c1). name(c2). … name(c|C_target |).”,其中 ci ∈ C_target。这样,新的对象类别(例如,lady)可能具有接近基本类别(例如,woman)嵌入的嵌入。这使得新类别也能够找到与之对齐的图像区域。注意,关系表示是从视觉和空间线索构建的,通常与类别无关。因此,在VS3中遇到新对象时,后续的关系识别不会受到影响。

实验

评价指标:根据之前的工作报告了 Recall@K (K=20/50/100) 上的性能,该工作测量了前 K 个预测中正确预测的关系三元组的比例。当三元组预测的主语、宾语、谓语标签以及主语和宾语区域与(相同标签或 IoU>0.5)地面实况三元组匹配时,三元组预测被认为是正确的。请注意,我们使用图约束获得三元组预测,这限制每个主宾对仅具有最置信的谓词。

与强基线模型的对比:
在这里插入图片描述
新的setting:Language-supervised results.

在这里插入图片描述

效果可视化:
在这里插入图片描述

3. 【2023-11-18】Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph Generation via Visual-Concept Alignment and Retention

在这里插入图片描述

摘要和结论

  • 为了实现完全开放的词汇SGG,我们设计了一个带有transformer的统一框架,名为O​​vSGTR。所提出的框架不仅学习将视觉特征和概念信息与基本对象对齐,而且还与关系类别对齐,并概括新对象和关系类别。
  • 为了获得关系的可转移表示,我们利用图像标题数据 image-caption data 作为关系感知预训练的弱监督。此外,采用通过知识蒸馏的视觉概念保留来缓解涉及开放词汇SGG的灾难性遗忘问题。

引言

  • 提出了两个关键问题,这两个问题是我们研究的驱动力:该模型能否预测看不见的物体或关系?如果模型同时遇到看不见的对象和看不到的关系,该怎么办?
  • 闭集SGG专注于长尾问题的特征聚合和无偏学习。OvD-SGG从节点角度(对象类别)扩展了闭集SGG,然而,它仍然在一组有限的关系上运作。
  • 我们介绍了OvSGTR,这是一个新的框架,旨在解决开放词汇SGG的复杂性。我们的方法不仅预测了看不见的对象或关系,而且还处理了在训练阶段对象和关系类别都不可见的具有挑战性的场景。OvR-SGG从边角度(谓语词、关系)引入开放词汇设置,要求模型预测看不见的关系,由于缺乏预先训练的关系感知模型以及对不太准确的场景图注释的依赖,这是一项更具挑战性的任务
  • OvSGTR对节点和边缘采用可视化概念对齐策略,利用图像字幕数据 image-caption data 进行弱监督关系感知预训练。该框架包括三个主要组件:用于视觉特征提取的冻结图像主干、用于文本特征提取的冻结文本编码器和用于解码场景图的transformer。

模型框架

在这里插入图片描述
3.1. Fully Open Vocabulary Architecture:

我们方法的核心是两个关键组成部分:视觉概念对齐和视觉概念保留。 该框架采用可变形的DETR进行对象定位,并辅以文本编码器,为视觉概念对齐提供概念信息。针对OvR-SGG 和 OvD+R-SGG设置带来的挑战,我们集成了一种专门设计的知识提取方法,以确保视觉概念的保留,减少灾难性遗忘,并保持语义空间的完整性。

特征的提取和prompt的设计:
在这里插入图片描述

节点和边的表示:
在这里插入图片描述
bbox头是3层MLP,cls由文本特征和隐层特征的相似度计算得来。隐藏层特征用作预测节点的视觉表示
在这里插入图片描述
轻量级的关系头,它将主语和客体的节点特征以及关系查询特征连接起来。

损失函数:
在这里插入图片描述

3.2 Learning Visual-Concept Alignment
视觉概念对齐 将节点或边缘的视觉特征与相应的文本特征相关联。对于节点级(objects)对齐,以图像为例,模型将输出 K 个预测节点 {̃vi}K i=1。这些预测节点必须与 N 个真实节点{vi}N i=1 匹配并对齐。该匹配被表述为二部图匹配,类似于标准 DETR 中的方法。这可以表示为
在这里插入图片描述
这里,sim(·,·)衡量预测节点与真实节点之间的相似度,通常同时考虑位置(即边界框)和类别信息。我们直接最大化其相似度,其中边界框之间的距离由 L1 和 GIoU 损失决定,类别相似度描述为
在这里插入图片描述其中 wvi 是节点 vi 的词嵌入,vj 是预测节点 ̃vj 的视觉表示,<·,·> 指两个向量的点积,σ 指 sigmoid 函数。这个方程。 (3) 寻求将节点的视觉特征与其在文本空间中的原型对齐。

为了将关系识别从封闭集扩展到开放词汇,一种直观的想法是学习视觉语义空间,其中关系的视觉特征和文本特征对齐。具体来说,给定文本输入 t 和文本编码器 Et、关系特征 e,对齐得分定义为
在这里插入图片描述
其中f是一个全连接层,<·,·>指的是两个向量的点积。一旦计算出对齐分数,我们就可以根据给定的GT计算二元交叉熵损失。损失可以表示为
在这里插入图片描述
其中σ指的是sigmoid函数,ye是一个单热向量,其中“1”索引正标记,P、N指的是关系的正样本和负样本集。

学习这种视觉概念对齐并非易事,因为在大规模数据集上缺乏关系感知的预训练模型相比之下,对象语言对齐可以从 CLIP 和 GLIP 等预训练模型中受益。另一方面,场景图的手动标注既耗时又昂贵,这使得很难获得大规模的SGG数据集。
为了解决这个问题,我们利用 图像标题数据作为关系感知预训练的弱监督。 具体来说,给定一个没有边界框注释的图像标题对image-caption data,我们利用现成的语言解析器来解析标题中的关系三元组。这些关系三元组通过匈牙利匹配与预测节点相关联。并且只有具有高置信度的三元组(例如,主体和客体的对象分数都大于0.25)被保留在场景图中作为伪标签。利用这些伪标签作为弱监督的一种形式,该模型能够学习丰富的对象概念以及与图像标题数据的关系。

3.3. Visual-Concept Retention with Knowledge Distillation
然而,我们凭经验发现,即使有关系感知的预训练模型,直接在新数据集上通过公式(5)优化模型会导致灾难性遗忘。
另一方面,在 OvR-SGG 或 OvD+R-SGG 设置中,看不见的(或新颖的)关系被从图中删除,这增加了难度,因为模型需要区分新颖的关系和“背景”。为了缓解这个问题,我们采用知识蒸馏策略来保持学习语义空间的一致性。具体来说,我们使用在图像标题数据上预训练的初始化模型作为教师。教师学习了丰富的关系语义空间,例如,从 COCO 标题 [3] 数据中解析出~2.5k 个关系类别。对于相同的负样本,学生的边缘特征应该与老师的边缘特征一样接近。因此,关系识别的损失可以表示为
在这里插入图片描述

通过这种知识蒸馏,模型可以获得更准确的基类信息,同时在新数据集上进行微调时保留未见过的类别的能力。这使得它对于管道来说更加实用:对大规模图像标题数据进行预训练,并对更可靠但有限的数据集进行微调。

实验

Closed-set SGG Benchmark
在这里插入图片描述
OvD-SGG Benchmark.
在这里插入图片描述

OvR-SGG Benchmark.

在这里插入图片描述

OvD+R-SGG Benchmark.

在这里插入图片描述
“联合 Base+Novel”(即考虑的所有对象和关系类别)、“Novel (Object)”(即只考虑新的对象类别)和“Novel (Relation)”(即只考虑关系类别)。

在这里插入图片描述

不足之处

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/488155.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于ssm的校园帮系统设计与实现(源码+调试)

项目描述 临近学期结束&#xff0c;还是毕业设计&#xff0c;你还在做java程序网络编程&#xff0c;期末作业&#xff0c;老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。今天给大家介绍一篇基于ssm的校园帮系统设计…

7-liunx服务器规范

目录 概况liunx日志liunx系统日志syslog函数openlog 可以改变syslog默认输出方式 &#xff0c;进一步结构化 用户信息进程间的关系会话ps命令查看进程关系 系统资源限制改变工作目录和根目录服务器程序后台话 概况 liunx服务器上有很多细节需要注意 &#xff0c;这些细节很重要…

TESTLINK 测试用例数据结构解析

一、node_types 测试组件信息表 我们查询表 select * from testlink.node_types; 得到如下结果 二、nodes_hierarchy 测试用例目录层次表 我们以下图的项目为例&#xff0c;来讲解 1、测试项目 首先&#xff0c;我们有个Train的项目&#xff0c;存在表testprojects中&#…

浅拷贝导致的bug

错误代码&#xff1a; //初始化formTableData的值 const formTableData ref({saleOrderTime:,saleOrderDetails:[] });const showModal async (item) > {//调接口获取后端返回的数据let data (await api.searchSaleOrderById({saleOrderId:item.id})).dataconsole.log(&…

5分钟JavaScript快速入门

目录 一.JavaScript基础语法 二.JavaScript的引入方式 三.JavaScript中的数组 四.BOM对象集合 五.DOM对象集合 六.事件监听 使用addEventListener()方法添加事件监听器 使用onX属性直接指定事件处理函数 使用removeEventListener()方法移除事件监听器 一.JavaScript基础…

Springboot日常总结-idea全局配置maven

在我们日常新建项目时&#xff0c;往往每次配置maven环境比较耗费精力&#xff0c;为了避免以后重复设置&#xff0c;以下方法可供参考&#xff1a; 首先退出项目 2.退出项目后&#xff0c;在configure->settings->maven下设置maven的具体地址就可以了

如何使用逻辑回归处理多标签问题?

逻辑回归处理多分类 1、背景描述2、One vs One3、One vs Rest4、从Sigmoid到Softmax的推导 1、背景描述 逻辑回归本身只能用于二分类问题&#xff0c;如果实际情况是多分类的&#xff0c;那么就需要对模型进行一些改动。下面介绍三种常用的将逻辑回归用于多分类的方法 2、One …

挑战杯 基于大数据的股票量化分析与股价预测系统

文章目录 0 前言1 课题背景2 实现效果3 设计原理QTChartsarma模型预测K-means聚类算法算法实现关键问题说明 4 部分核心代码5 最后 0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; 基于大数据的股票量化分析与股价预测系统 该项目较为新颖…

ES通用查询页面使用说明

前言:ES语法比较复杂,需要专门的学习,而且查询工具不太友好, 对公司运维人员使用有点困难,所以花了个时间做了一个页面,方便运维人员使用,如下。 也不难,有兴趣的朋友可以私聊发源码。 开发帮助-ES数据查询 搜索 输入要查看的文档索引,文档类型后点【查询】即可 搜…

pikachu靶场-File Inclusion

介绍&#xff1a; File Inclusion(文件包含漏洞)概述 文件包含&#xff0c;是一个功能。在各种开发语言中都提供了内置的文件包含函数&#xff0c;其可以使开发人员在一个代码文件中直接包含&#xff08;引入&#xff09;另外一个代码文件。 比如 在PHP中&#xff0c;提供了&…

测试计划、测试方案、测试策略、测试用例的区别

一 测试计划 测试计划是指描述了要进行的测试活动的范围、方法、资源和进度的文档。它主要包括测试项、被测特性、各阶段的测试任务、时间进度安排&#xff0c;谁执行任务和风险控制等&#xff0c;可以包括测试策略。 二 测试方案 测试方案是指描述需要测试的特性、测试的方…

C#入门详解_02_初识各类应用程序(学习方法;console;winform;WPF;C#语言还可以进行的网站开发、平板、手机程序开发方法)

本节主要介绍各种可以用C#编写的应用程序。 文章目录 1. 编程学习的捷径2. 编写我们的第一个程序--Hello,World!2.1 Console-控制台2.2 Windows Forms (Old)2.3 WPF(Windows Presentation Foundation)2.4 高版本VS进行C#编程(了解c#还可以做什么)2.4.1 ASP.NET Web Forms (Old)…