视觉问答学习(对比学习-3D点云)

1、基于对比学习的方法

自监督学习,不需要人工标注的类别标签信息,而是利用数据本身提供的监督信息来学习样本数据的特征表达,并用于下游任务。在视觉语言表示学习中,通过对比学习实现图像-文本对齐,这种对齐策略能够获得成功是由于它能够最大化图像和匹配文本之间的互信息(Mutual Information,MI)。互信息是一种衡量变量之间相互依赖的方法,通过区分正样本对和负样本对来衡量图像和问题之间的关系。
在这里插入图片描述
Li等提出ALBEF模型,引入图像文本对比学习,利用图像编码器、文本编码器和多模态编码器进行预训练,预训练的目标是使图像文本的互信息最大化、图像文本进行细粒度地交互,以及图像文本配对。
Wang等提出了一个统一的视觉语言预训练模型VLMo,它联合学习一个双编码器和一个共享MoME Transformer网络的融合编码器。MoME引入一个模态专家池来编码模态特定信息,并使用共享的自注意力模块来对齐不同的模态。通过MoME进行统一的预训练,模型参数在图像-文本对比学习、屏蔽语言模型和图像-文本匹配任务中共享。
大多数模型的编码器主要从某些不相关/有噪声的图像块或文本分词中提取信息。
Yang等提出了一种新的视觉语言预训练框架TCL。与以往通过交叉模态对比损失简单地对齐图像和文本表示地研究不同,TCL进一步考虑模态内监督,这反过来有利于交叉模态对齐和联合多模态嵌入学习。为了将局部信息和结构信息结合到表示学习中,TCL进一步引入了局部互信息,最大限度地利用全局表示与图像块或文本词语的局部信息之间的互信息。

对比学习能够使匹配的图像-文本尽可能接近,同时使未匹配的图像-文本对相互远离。对比学习的目的是让融合编码器更容易学习多模态交互。但是,视觉问答中的对比学习还存在一定的局限性,它增强了图像和文本的全局互信息,忽略了输入中的局部信息和结构信息。此外,某些噪声可能会主导MI,导致预测倾向于学习不相关的特征。

2、基于三维点云的方法

3D问答以点云作为输入,在回答与3D场景相关的问题时需要语言处理和3D场景理解:
在这里插入图片描述
在这里插入图片描述
Azuma等提出了一个三维问答的基线模型,称为ScanQA。ScanQA模型包括3D和语言编码器、3D和语言融合模块、物体定位和QA层。3D和语言编码器层将问题转换未特征向量表示,并将点云转换为物体候选框。3D和语言融合层使用基于Transformer的编码器层和解码器层将语言信息引导的多个3D物体特征以及文本信息融合在一起。物体定位和QA层评估目标对象框和对象标签,并预测与问题和场景内容相关的答案。
Ye等提出了一种新的基于Transfomer的3D问答框架3DQA-TR,它利用一个语言分词器来进行问题嵌入,利用两个编码器分别提取外观和几何信息,然后使用3Q-L BERT将外观、几何和语言问题的多模态信息相互关联,以预测目标答案。
Yan等引入3D真实场景中的视觉问答任务,它旨在回答给定的3D场景中所有可能的问题。他们设计了TransVQA3D。TransVQA3D首先使用一个跨模态Transformer来融合问题和物体的特征。然后应用场景图初始化,取场景图的附加边来进行场景图感知注意,从而获得物体之间的关系并推断出答案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/288567.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Web请求与响应

目录 Postman Postman简介 Postman的使用 请求 简单参数 实体参数 数组参数 集合参数 日期参数 Json参数 路径参数 响应 ResponseBody 统一响应结果 Postman Postman简介 postman是一款功能强大的网页调试与发送网页http请求的Chrome插件,常用于进行…

怎么压缩图片大小?

怎么压缩图片大小?图片可以说是现在大家绕不开的一种文件,在我们日常的生活和工作中,图片大小成为了一个经常需要处理的问题。无论是在文件插入、上传还是发送图片时,我们往往都会受到图片大小的限制。现在不管手机还是相机的像素…

2 python基本语法 - Tuple不可变序列

1 元组的概念 元组(tuple)是一个有序且不可更改的集合,允许重复。元组(tuple)是 Python 中一个重要的序列结构,和列表类似,元组也是由一系列按特定顺序排序的元素组成。元组和列表(…

基于Redis限流(aop切面+redis实现“令牌桶算法”)

令牌桶算法属于流量控制算法,在一定时间内保证一个键(key)的访问量不超过某个阈值。这里的关键是设置一个令牌桶,在某个时间段内生成一定数量的令牌,然后每次访问时从桶中获取令牌,如果桶中没有令牌&#x…

【物联网无线通信技术】WiFi从理论到实践(ESP8266)

文章从理论基础到具体实现完整的介绍了最常见的物联网无线通信技术:WiFi。 文章首先介绍了WiFi这种无线通信技术的一些基本概念,并针对其使用的802.11协议的基本概念与其定义的无线通信连接建立过程进行了简单的介绍,然后对WiFi开发常常涉及的…

米游社区表情包整合网站源码

源码介绍 米游社表情包整合网站源码,来自Github大佬的项目,包含米游兔123枚,米游社 玩家12枚,崩坏 星穹铁道112枚,绝区零218枚,NAP32枚,崩坏RPG62枚,崩坏3-1282枚,原神 …

Go语言字符串综合指南:函数、方法和最佳实践

Go语言字符串综合指南:函数、方法和最佳实践 引言Go语言字符串基础声明和初始化不可变性字符串长度 字符串操作函数常用字符串操作转换与解析示例连接分割包含关系替换大小写转换整数与字符串的转换字符串到整数的转换格式化与解析 字符串与字符切片字符串和字符切片…

广西建筑模板厂家哪家质量好?

在建筑行业,高质量的建筑模板对工程的成功至关重要。选择一个可靠的建筑模板供应商,对于保证施工质量、提高效率、降低成本具有重大意义。在广西,众多建筑模板厂家中,能强优品木业以其卓越的产品质量和专业的服务,成为…

鸿鹄工程项目管理系统源码:Spring Cloud与前后端分离的完美结合

在现代化的工程项目管理中,一套功能全面、操作便捷的系统至关重要。本文将介绍一个基于Spring Cloud和Spring Boot技术的Java版工程项目管理系统,结合Vue和ElementUI实现前后端分离。该系统涵盖了项目管理、合同管理、预警管理、竣工管理、质量管理等多个…

Nginx快速入门:访问日志access.log参数详解 |访问日志记录自定义请求头(三)

0. 引言 在企业的生产环境中,我们时常需要通过nginx的访问日志来统计流量、排查调用问题等,而nginx默认的日志格式所包含的信息远无法满足我们使用,因此常常需要对日志进行自定义,所以今天我们就来看如何自定义nginx的访问日志格…

算法-滑动窗口类型

6666 滑动窗口 1、大小为K的最大和子数组 给定一个数组,找出该数组中所有大小为“K”的连续子数组的平均值。 让我们用实际输入来理解这个问题: Array: [1, 3, 2, 6, -1, 4, 1, 8, 2], K51、对于前5个数字(索引0-4的子数组),平均值为:(1 3 2 6−…

netsdk1004 找不到资产文件“d:\vs-code\consoleapp1\consoleapp1\obj\project.assets.json”

今天学C#遇到一个问题记录下 创建如上所示的项目后运行出错: netsdk1004 找不到资产文件“d:\vs-code\consoleapp1\consoleapp1\obj\project.assets.json”。运行 nuget 包还原以生成此文件。 consoleapp1 c:\program files\dotnet\sdk\8.0.100\sdks\microsoft.net…