2024.11多模态学习月报

news/2025/2/12 19:12:57/文章来源:https://www.cnblogs.com/cyb66666/p/18579710

2024年11月学习月报

SegEarth-OV

SegEarth-OV是面向遥感图像的开放词汇语义分割模型。SegEarth-OV的模型架构为CLIP,并且采用SimFeatUp作为上采样器。由于FeatUp中的上采样器和下采样器都是可学习的,所以难以保证HR特征完整。于是在SimFeatUp中引入了一个额外的图片重建损失来约束HR特征。通过添加一个CRN(内容保留网络)来重建图片。用时在patch中减去了'[cls]'以减轻全局误差。

PromptKD

主要思想

Reuse教师模型的Text Feature,只训练学生模型的Image Encoder。将教师模型产生的对应类别的text feaure保存下来,再与学生模型的Image Feature相乘得到Logits。
采用离散的可学习Prompt:{v1,v2,v3,v4,...,ci},提高正确率。

解决的问题

  1. 节省计算量,避免Text Feature的重复计算。
  2. 解决数据量限制问题,可以用大量的无标签的数据来训练学生模型。

RAR

方法

检索器

使用 CLIP 模型提取图像和文本的多模态嵌入。构建一个外部记忆库,将类别的嵌入存储在显式内存中。输入图像时,检索器从记忆库中提取与输入图像最相似的top-k类别。

排序器

使用 MLLM(如 LLaVa 或 GPT4-Vision)对检索的类别进行重新排序。MLLM通过上下文提示(Prompt)结合内置知识,对类别进行语义级别的细粒度分析,生成最终预测结果。

效果

RAR 方法在细粒度分类、少样本学习和零样本检测任务上实现了显著的性能提升,同时保持高效和通用性,为多模态视觉识别任务提供了更强的工具。

LSeg(多模态语义分割模型)

方法

将图片([W,H,C]),类别文本([N,C])进行编码,在通道维度计算余弦相似度,得到文本引导后的图片特征([W,H,N]),最后将特征图恢复到原图大小。

GroupViT(多模态语义分割模型)

Idea

引入了可学习的gruop tokens,与图片tokens一起进行注意力计算,学习图片特征,与文本特征进行对比学习。通过上面对比学习后,通过求解类别文本和图像区域的相似度,为特定区域分配其相似度最高的类别。

GLIP

方法(多模态目标检测模型)

通过RNP(区域候选网络)获取候选框,候选框内的图片经过图片编码器处理提取特征。损失由两部分组成,一部分是分类损失,类似CLIP,与prompt文本特征进行对比损失计算,prompt由多个类别phrase组成。另一部分是框的回归损失。

深度融合

通过多模态多头注意力机制对文本和图片特征进行多层的深度融合,使模型学习到更深层次的语义信息,并在下游任务上具有更好的应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/844531.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

湖北大学新星杯web-misc---wp from sorin

差一点akweb,算是一个小遗憾 WP----sorin 1\Ezhttp Exp如下:访问:得到flag 2\Robots Leak 直接git-dumper下载后, Git log Git showGit stash list 后pop1查看.flag.exe即可 3\Random_Door 爆破flag{{int(1-100)}}.php利用伪协议php://filter/convert.base64-encode/resour…

exe 安装为 windows服务

下载地址 http://www.nssm.cc/download只有一个exe文件放在 C:\Windows\nssm.exe命令行执行 nssm install

UI自动化基础知识

一、UI自动化测试介绍1、什么是自动化测试概念:由程序代替人工进行系统校验的过程1.1自动化测试能解决的问题?回归测试 (冒烟测试)针对之前老的功能进行测试,通过自动化的代码来实现。 针对上一个版本的问题的回归兼容性测试:web实例化不同的浏览器驱动相当于对不同的浏览器进…

AI大模型系列之一:大模型原理科普(深度好文)

.MathJax, .MathJax_Message, .MathJax_Preview { display: none }AI大模型系列之一:大模型原理科普(深度好文)目录 认识AI大模型家族 AI是什么? 机器学习是什么? 机器学习有哪些分支? 什么是强化学习? 深度学习属于哪一类学习? 生成式AI和深度学习是什么关系? 大语言…

Web自动化002-Web自动化元素定位及浏览器的相关操作

Web自动化002-Web自动化元素定位及浏览器的相关操作Web自动化元素定位及浏览器相关的操作标签=元素1.元素定位首先需要选择要被定位的元素(锁定被操作的元素)然后才能对元素进行具体操作(具体的操作方法) selenium第三方库中提供了两类定位的方法 find_element----->返回…

2024-2025-1 20241314 《计算机基础与程序设计》第十周学习总结

2024-2025-1 20241314 《计算机基础与程序设计》第十周学习总结 作业信息这个作业属于哪个课程 2024-2025-1-计算机基础与程序设计这个作业要求在哪里 2024-2025-1计算机基础与程序设计第十周作业这个作业的目标 信息系统 数据库与SQL 人工智能与专家系统 人工神经网络 模拟与…

ElementUI上传多图的操作

一、使用ElementUI上传多图 1.在项目中引入ElementUI的相关组件<el-form-item label="详细图片"><!-- <el-upload:action="api_url+/api/upload.php"list-type="picture-card":file-list="picsUrl":on-success="hand…

十六进制色彩--代码参考表

来源:http://www.allfid.com/control/inpx/color.htm

概念

一、函数 1、计算机的函数,是- 一个固定的一个程序段,或称其为一个子程序,它在可以实现固定运算功能的同时还带有一入口和一个出口,所谓的入口,就是函数所带的各个参数,我们可以通过这个入口,把函数的参数值代入子程序,供计算机处理,所谓出口,就是指函数的计算结果,也…

2024年值得推荐的6款 Vue 后台管理系统模板,开源且免费!

前言 在现今的软件开发领域,Vue.js凭借其高效、灵活和易于上手的特性,成为了前端开发的热门选择。对于需要快速搭建企业级后台管理系统的开发者而言,使用现成的Vue后台管理系统模板无疑是一个明智之举。本文大姚将为你推荐6款开源、免费(基于MIT License开源协议)、开箱即用…

String常见面试题

第一题:打印的结果是true还是false呢?在之前我们就说过这题,执行s1时,检查字符串常量池,发现没有“abc”,于是创建“abc”,执行s2时,接着检查常量池,发现有“abc”,直接复用,所以s1和s2地址一致,打印出来是true第二题:true or false1.主方法自动进栈,执行s1,双引…

2024-2025-1 20241415 《计算机基础与程序设计》第十周学习总结

学期(如2024-2025-1) 学号(如:20241300) 《计算机基础与程序设计》第X周学习总结 作业信息这个作业属于哪个课程 2024-2025-1-计算机基础与程序设计这个作业要求在哪里 2024-2025-1计算机基础与程序设计第十周作业这个作业的目标 信息系统,数据库与SQL,人工智能与专家系…