用于端到端场景图生成的密集关系变换器

用于端到端场景图生成的密集关系变换器
场景图生成旨在捕捉图像中对象之间的详细空间和语义关系,由于标签不完整、长尾关系类别和关系语义重叠,这具有挑战性。现有的基于Transformer的方法要么对对象和谓词采用不同的查询,要么对关系三元组采用整体查询,因此学习低频关系的能力往往有限。提出了一种新的基于Transformer的方法,DSGG将场景图检测视为基于一组独特的图形感知查询的直接图预测问题。特别是,每个图感知查询都对图中节点及其所有关系的紧凑表示进行编码,这些表示是通过在训练过程中利用宽松的子图匹配获得的。此外,为了解决关系语义重叠的问题,采用了一种关系蒸馏策略,旨在有效地学习语义的多个实例
关系。在VG和PSG数据集上的广泛实验表明,模型达到了最先进的结果,在mR@50以及mR@100用于场景图生成任务,并在mR@50以及mR@100用于全景场景图生成任务。
场景图生成(SGG)旨在检测并生成场景中所有对象的图形结构,其中边描述了它们的视觉交互或成对关系。图像的这种拓扑表示有助于视觉理解和图像推理任务,如图像字幕生成、视觉问答、跨模型检索和人机交互识别。该任务类似于全景场景图生成(PSG)任务(或其子任务),其中主体和对象也可以属于素材类,实体的语义分割用于评估场景图。
具体来说,给定一张图像,SGG任务的重点是预测所有对象及其类标签、边界框、像素精确分割以及它们与所有其他对象的关系。基于图的场景生成方法通常受到底层目标检测器的高复杂性和场景上下文表示的限制。无偏SGG方法试图在不考虑数据中标签偏差的情况下学习语义关系,然后使用简单的后处理来纠正标签分布。然而,这些技术对同一对对象之间具有多种语义关系的图像存在挑战,并且容易受到关系类别长尾问题的影响。
基于变换器的方法试图为场景图生成提供单级解决方案。传统的基于变换器的方法利用具有共享查询或单独查询的双流网络来估计对象关系。
例如,改进方法采用了一种整体策略,直接预测<主语、谓语、宾语>三元组列表,网络中的每个查询都表示一个单一的三元组。最近基于变换器的场景图生成方法仅依赖于基于对象的匹配来学习查询。然而,它们的受限能力导致了有效学习密集和低频关系的局限性。
引入了一种基于三元组查询的双流网络,该网络使用ad-hoc方法添加伪关系来解决关系类不平衡的问题。然而,它无法全面捕捉图像中的所有关系,即使在使用专用网络分支处理,从低到高和从高到低的频率关系时,也容易受到关系语义重叠问题的影响。
另一个限制是该模型能够捕捉到每个关系类别中的实质性多样性以及多个对象之间存在的关系的相似性。
通过引入一个学习图像对象之间所有关系的通用模型来解决这一差距。
引入了一个图感知查询,如图5-3所示,它作为一个组合查询。此查询学习每个对
象的表示及其与图像中所有其他对象的多重关系。从本质上讲,每个节点都有一个与之相关的唯一的图感知查询。这与现有的基于转换器的架构形成鲜明对比,无论是使用单查询还是三元组查询,由于模型的复杂性不断提高,每个可能的三元组都需要传统的查询,因此难以扩展以生成密集的场景图。
使用这些图感知查询的优点是,无论两个对象之间是否存在多个关系,模型都能学习预测正确的多个关系标签(或没有关系),从而基本上消除了关系语义重叠问题。另一个好处是减少了可训练网络参数的总数,因为节点和关系不需要两个流变换器。
此外,在端到端的上下文中学习这些图感知查询是具有挑战性的。将集合预测问题扩展到基于图感知查询的图预测,对于学习场景图的结构至关重要。为了将学习图中的每个节点及其所有边与真值节点表示进行匹配,采用了一种宽松的子图匹配技术。在存在低频关系的情况下,子图匹配更强调学习整体图结构,而不是图像中存在的特定高频关系,从而消除了长尾关系分布问题。此外,DSGG方法采用了一种重新评分机制,并引入了关系蒸馏,以实现有效的成对关系预测。
随着模型越来越善于处理负作用关系,通过学习图像中所有对象的密集图像关系,标签噪声会降低。
改进的DSGG方法,这是一种端到端的统一技术,它将场景图检测视为一个直接的图预测问题,并估计图中每对节点的多标签关系概率。改进包括4方面优化:
1)为基于Transformer的网络引入了图感知查询,该查询学习图中节点及其所有关系的紧凑表示。
2)引入了一种新的子图匹配来估计真值和估计场景图之间的成本。
3)引入了关系蒸馏,并调整了重新评分模块,以根据实体语义有效地对谓词进行排序和排序。
4)方法在视觉基因组和PSG数据集上具有最先进的性能,大大改善了场景图检测和全景场景图生成任务的视觉语义关系。
SGG网络中使用的不同查询的说明,如图5-3所示。
 图5-3  SGG网络中使用的不同查询的说明

在图5-3中,a)多查询变换器网络分别学习实体和谓词。b)基于三元组查询的Transformer网络对每个三元组使用单独的查询。c)提出的图感知查询共同学习对象及其所有关系的紧凑表示。

DSGG架构的说明,如图5-4所示。

图5-4  DSGG架构的说明

在图5-4中,所提出的方法采用单级变换器架构,该架构采用图感知查询来预测场景图。输入图像首先由骨干网处理,然后通过变换器提取组合标记。这些标记用于学习类一致性、边界框和分割。

此外,使用密集关系嵌入模块来学习图像中每个对象之间的成对关系。然后生成预测图,并将其与真值图进行比较,以确定节点的最佳排列。为了对最终关系进行排序,使用了密集关系蒸馏和重新评分模块。

总之,介绍了一种创新的直接图检测方法,用于场景图生成,该方法以端到端的方式同时预测对象及其关系。方法采用了通过松弛子图匹配,从密集场景图中学习到的新颖的图感知查询。组合标记用于学习类、边界框、分割和成对关系的嵌入。此外,将关系蒸馏、重新评分,以及后处理与logit调整相结合,以获得统一的端到端解决方案。在场景图生成(SGG)和全景场景图生成器(PSG)基准数据集上的广泛实验,证明了方法的优越性能,大大超过了最先进的结果。消融研究评估了每个模型组件的贡献,分析了模型在解决与关系语义重叠和长尾问题相关的挑战方面的有效性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/855677.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

新书推荐《AI芯片开发核心技术详解》、《智能汽车传感器:原理设计应用》

由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《AI芯片开发核心技术详解》已经出版,京东、淘宝天猫、当当等网上,相应陆陆续续可以购买。该书强力解析AI芯片的核心技术开发,内容翔实、知识点新颖、实践性很强、图文并茂。 由清华大学出版社资深编辑赵佳霓老师…

vue3/Nuxt中使用Toast

前言 实在是懒得手写一个toast,于是找了一下。 过程 https://github.com/Maronato/vue-toastification/tree/next vue-toastification这个库很有名,默认是vue2的,如果需要使用vue3,需要在安装时,指定next的tag,比如 pnpm i vue-toastification@next但是这个库的最新版也已…

什么是状态管理,有哪些实现?

概念 “状态管理”是指在应用程序中有效地组织、更新和共享数据的方式。比起数据库和本地之类的持久层,有时我们需要存储一些应用运行过程中的临时数据,其中大部分可能都不会存入数据库。因此,状态这个词还是挺贴切的。比较熟悉的是vue中Pinia提供的状态管理,他是全局可访问…

[计算机网络/Linux] 基于CENTOS7自建DNS服务

序最初的诉求:自建DNS,篡改公开网站的url为自建web服务的url。在使用浏览器进行网上冲浪的时候,我们只需要输入网址即可访问,但是在网络中,网址并不是一个有效的东西,真正起作用的是网址所对应的IP地址,但是IP地址是一堆没有规律的数字,难以记忆、使用,所以就有了DNS服…

[计算机网络] 基于CENTOS7自建DNS服务

序最初的诉求:自建DNS,篡改公开网站的url为自建web服务的url。在使用浏览器进行网上冲浪的时候,我们只需要输入网址即可访问,但是在网络中,网址并不是一个有效的东西,真正起作用的是网址所对应的IP地址,但是IP地址是一堆没有规律的数字,难以记忆、使用,所以就有了DNS服…

systemd[1]: home.mount: Directory /home to mount over is not empty, mounting anyway.

日志显示这些内容说明可能是 fstab 服务自动挂载之前 /home 不为空systemd[1]: home.mount: Directory /home to mount over is not empty, mounting anyway. ░░ Subject: 挂载点不为空 ░░ Defined-By: systemd ░░ Support: http://www.ubuntu.com/support ░░ ░░ 目…

Linux服务器上部署Redis流程

前言 Redis版本7.0.4 服务器版本:Linux CentOS 8.0 64位 1.下载Redis 进入官网找到下载地址 https://redis.io/download 进入到Xshell控制台(默认当前是root根目录),输入wget 将上面复制的下载链接粘贴上,如下命令: wget http://download.redis.io/releases/redis-7.0.4.tar…

[Tools] Buzz – 免费开源的AI语音转文字工具

Buzz 介绍 https://github.com/chidiwilliams/buzz Buzz是一款基于OpenAI Whisper模型构建的离线语音转文字工具,适用于Windows、macOS和Linux系统。Buzz能将麦克风输入或音频、视频文件实时转换为文字,支持多种格式导入导出,如TXT、SRT和VTT。Buzz的转换速度快,准确率高,…

Skipping题解(贪心,队列,迪杰斯特拉,思维)

原题链接 https://codeforces.com/problemset/problem/2023/B 大致题意 类似一个游戏游戏规则如下:从1开始,可以选择吃掉ai,之后只能选择比当前下标小的(明显,如果开始就选择吃掉a1,那么游戏就结束了)。 当然还可以选择不吃ai,那么可以跳到[1,b[i]](b[i]与i的大小关系…

arcpy开发初探

是第一次将软件操作和书写代码合二为一 一、配置环境 arcpy是无法pip下载到的,只有满足以下条件才能调用到: 1、运行代码时候需要使用arcgis下面的python做编译器去运行 2、arcmap是需要启动着的 先写个测试代码 import arcpy print(arcpy.GetInstallInfo()[Version]) input_…

2024-2025-1 20241322 《计算机基础与程序设计》第13周学习总结

2024-2025-1 20241322 《计算机基础与程序设计》第13周学习总结 作业信息这个作业属于哪个课程 https://edu.cnblogs.com/campus/besti/2024-2025-1-CFAP这个作业要求在哪里 https://www.cnblogs.com/rocedu/p/9577842.html#WEEK13这个作业的目标 《C语言程序设计》第12章并完…

全斗焕小曲 All In One

全斗焕小曲 All In One 挨棍的小曲 / 无限制格斗大赛の小曲 / 全斗焕の小曲 / 跑男の小曲 / 联赛开幕曲全斗焕小曲 All In One挨棍的小曲 / 无限制格斗大赛の小曲 / 全斗焕の小曲 / 跑男の小曲 / 联赛开幕曲demos https://search.bilibili.com/all?keyword=挨棍的小曲 https:/…