GeoChat论文阅读

news/2024/10/29 22:28:03/文章来源:https://www.cnblogs.com/cyb66666/p/18514643

GeoChat

任务

图像级对话任务

在此任务中,GeoChat 处理图像和用户文本查询,利用图像的全局上下文执行对话的任务。

区域级对话任务

在图像输入中向 GeoChat 提供空间框位置 ( b ),指导模型关注图像中的特定区域,执行区域级的对话任务。

具体化对话任务

通过使用特殊的标记,引导GeoChat完成任务。

模型架构

GeoChat整体遵循LlaVA-v1.5的架构,由视觉编码器,跨模态适配层,大语言模型组成。

任务标记

使用{grounding,identify,refer}三种任务标记,分别用于语义对话、区域描述和指代表达理解。至于视觉问答(VQA)和场景分类的情况。

空间位置标记

以文本形式表示空间位置:$$b = { b_{x_{left}}, b_{y_{top}}, b_{x_{right}}, b_{y_{bottom}} \mid \theta }$$
(以文本形式直接输入LLM?)

视觉主干

通过对CLIP模型中的位置编码进行了插值,以适应 504×504 的输入图像大小,使模型接收更大的输入尺寸。

MLP跨模态适配器

使用一个具有一个隐藏层的MLP适配器,从冻结的CLIP-ViT模型中将输出tokens投影到语言模型空间。将视觉模型的输出特征投影到语言模型的空间,使两者能够有效地结合。

大语言模型

以开源大型语言模型Vicunav1.5(7B)作为GeoChat的基础。使用低秩适应(LoRA)的策略对LLM进行微调,降低微调大模型所需的机器资源。

LoRA

在原始预训练模型旁边增加一个旁路,做一个降维再升维的操作,训练的时候固定预训练模型的参数,只训练降维矩阵A与升维矩阵B。而模型的输入输出维度不变,输出时将BA与PLM的参数叠加。用随机高斯分布初始化A用0矩阵初始化B.

训练细节

使用预训练的CLIP-ViT(L-14)编码器、MLP适配器和Vicuna-v1.5来初始化模型。接着,对LLM进行LoRA微调,同时保持MLP适配器和CLIP编码器冻结,以实现更好的训练效果。

数据集的创建

组成数据集

整合了三种不同类型的数据集,涵盖了针对对象检测、场景分类和视觉问答(VQA)设计的数据集。DOTA [34]、DIOR [6] 和 FAIR1M [27],共同形成SAMRS [30] 数据一个场景分类数据集NWPURESISC-45 [5],一个VQA数据集LRBEN [20],以及一个洪水检测VQA数据集 [25)。

添加缺失类

使用其他模型推理,添加图片中未标注的类别(例如建筑,道路,树木)。

属性提取

通过目标的在图片中的方位,占比,像素值来提取相对位置,颜色,大小等属性。

生成表达式

通过表达式生成对象的文本描述,或者对象之间的联系。

模型复现

在运行demo的过程中被killed,应该因为显卡的内存不足

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/823910.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

lvgl8图像改成lvgl9图像的方法(c文件)

[1] 离线png->c的工具: LittlevGL - 里飞网 - Powered by Discuz! LvglImgTool更新V0.2版本 - LittlevGL - 里飞网 - Powered by Discuz! Lvgl_image_convert_tool: 基于LVGl图片转换离线版封装的小工具,不仅有界面,还可以一键生成到项目里哦 问题 通过Image Converter —…

JY901 ROS1使用经验

参考: 维特智能官方ROS Python使用说明https://wit-motion.yuque.com/wumwnr/ltst03/lu0v13?#0246cb6a 安装配置步骤:先在VirtualBox中为这个包配置对应的环境:Ubuntu 16.04, ROS(1)Kinetic, Python 2.7. 按照上面参考链接,从【3.IMU软件包使用】开始一步一步做。使用步骤…

变电站设备状态识别监测智能巡视系统

变电站设备状态识别监测智能巡视系统利用先进的图像处理和机器学习技术,变电站设备状态识别监测智能巡视系统通过变电站现场的监控摄像机对设备状态进行实时监测。系统能够自动识别配电箱闸刀的开合状态。通过与旁边的标准位置线进行比较,系统能够准确判断配电箱闸刀的开合情…

项目管理与运作管理的区别

项目管理和运作管理都是组织中不可或缺的管理方式,但它们具有显著的差异。包括:1.目的和范围不同;2.持续性和周期性的差异;3.风险和复杂性的差别;4.资源分配和优化;5.团队结构和组织;6.衡量和评价的标准;7.交付和成果的差异。了解这些差异有助于更好地决定何时应用哪种…

20222413 2024-2025-1 《网络与系统攻防技术》实验三实验报告

1.实验内容 1.1学习总结 本周的学习内容为恶意代码的概念、发展历史以及分析技术。我知晓了恶意代码的不同类型及其典型案例、攻击方式和危害。同时我了解了静态分析和动态分析所采用的技术方法。 1.2实践内容 (1)正确使用msf编码器,veil-evasion,自己利用shellcode编程等免杀…

工作牌佩戴监测识别系统

工作牌佩戴监测识别系统充分利用了工厂现场已有的摄像头设备,无需额外的硬件投入。工作牌佩戴监测识别系统采用AI视频智能分析算法,实时对监控区域内的工作人员进行识别和检测。系统可以准确识别出人员是否佩戴了工作牌,并判断其是否符合要求。工作牌佩戴监测识别系统一旦监…

线性代数的解法

线性代数 数学的思维方式: graph TBid1(#观察#客观现象)--提出主要研究的问题\n抓住主要特征-->id2(#抽象#出概念或建立模型)id2-->id3(#探索#应用直觉,类比,归纳,联想,推理) id3-->id4(#猜测#可能有的规律)id4-->id5(#论证#深入分析,应用定义,公理,证明过的定理进…

分子机器人和纳米机器人有什么区别

在纳米科技和分子工程领域,分子机器人和纳米机器人是两种先进的概念,它们在设计、功能、应用和制造技术上存在显著差异。本文旨在探讨分子机器人与纳米机器人之间的主要区别:1.定义和尺寸范围;2.制造材料和技术;3.功能和应用领域;4.研究和发展挑战;5.未来发展趋势。了解…

基于Java+SpringBoot+Mysql实现的古诗词平台功能设计与实现八

可以二次开发 前台功能:首页、诗文、作者、名句、成语、赏析、翻译、典籍、注册、登录、个人中心等。 后台功能:作者列表、古诗词列表、名句列表、成语列表、典籍列表、用户管理、赏析管理、翻译管理等。 部分功能: 后台管理古诗词信息控制器Controller、后台名言名句信息控…

数据采集与融合技术实践第三次作业

作业1 要求:指定一个网站,爬取这个网站中的所有的所有图片,例如:中国气象网(http://www.weather.com.cn)。使用scrapy框架分别实现单线程和多线程的方式爬取。 务必控制总页数(学号尾数2位)、总下载的图片数量(尾数后3位)等限制爬取的措施。 输出信息:代码:weather…

实验3_C语言函数应用编程

任务一:#include <stdio.h> char score_to_grade(int score); int main() { int score; char grade; while(scanf("%d", &score) != EOF) { grade = score_to_grade(score);printf("分数: %d, 等级: %c\n\n", score, grade); } return 0;…

强化学习的数学原理-07时序差分方法

目录引入TD learing of state valuesTD learing of action values SarsaTD learing of action values Expected SarsaTD learing of action values n-step SarsaTD learing of optimal action values:Q-learninga unified point of view 引入这三个例子是层层递进的,都可以用…