VLM-3D空间理解

image

VLM-3D空间理解

CoT

Thinking in space

Notably, prevailing linguistic reasoning techniques (e.g., chain-of-thought, self-consistency, tree-of-thoughts) fail to improve performance, whereas explicitly generating cognitive maps during question-answering enhances MLLMs’ spatial distance ability.

《Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces》

语言学prompt方法:

  1. zero-shot chain-of-thought: 在问题后面增加:Let's think step by step.​诱发大模型逐步思考的能力。再运行模型要求模型从上个回答中提取显示的答案(比fuzzy匹配精度更高)。
  2. Self-Consistency w/ CoT:生成多个答案投票;
  3. Tree-of-Thought: 先要求模型生成回答该问题的3个计划,再运行多次模型要求投票选出最优计划,再要求模型根据计划执行,回答问题。

Cot

image

We prompt Gemini-1.5 Pro to first generate a cognitive map based on the given video and question, and then to use the predicted map to answer the question.

image

image

Visual CoT

《Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning》

they often lack interpretability and struggle with complex visual inputs, especially when the resolution of the input image is high or when the interested region that could provide key information for answering the question is small. To address these challenges, we collect and introduce the large-scale Visual CoT dataset comprising 438k question-answer pairs, annotated with intermediate bounding boxes highlighting key regions essential for answering the questions.

image

制作了一个438K大小的数据集,包含:

  1. question
  2. answer
  3. Cot-BBox

其中98K数据包含下图所示的步骤指引:

image

对于包含CoT BBox的训练数据,训练时在问题后面附加"Please provide the bounding box coordinate of the region that can help you answer the question better.",同时根据该问题的真值抠出对应图像区域,将其编码后的特征和完整图像编码后的特征统一送入模型。

image

训练分为两个阶段:

  1. 在图片字幕数据上仅训练projector;
  2. 在visual-cot数据集上微调全部模型;

Visual Encoder

Video-3D LLM

《Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding》

By treating 3D scenes as dynamic videos and incorporating 3D position encoding into these representations, our Video-3D LLM aligns video representations with real-world spatial contexts more accurately.

image

将深度图中每个像素深度坐标转换为全局坐标(根据相机内参和外参),再作为position embedding和图像feature融合。

Chat-Scene

《Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers》

we decompose the input 3D scene into a set of object proposals, each assigned a unique identifier token.

image

  1. 对图像施加2d 图像检测器dino,得到每个目标的2d embedding再经过2d projector
  2. 对点云施加3d点云检测器,得到每个目标的3d embedding,再经过3d projector
  3. 在词汇表中添加目标索引例如<OBJ032>,<OBJ034>​,通过tokenizer转换为embedding
  4. 结合上诉3个目标级别的embedding得到一个目标的完整embedding,用于替换
    System: A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user’s questions. The conversation centers around an indoor scene: [<OBJ001> <object> <OBJ002> <object> ... <OBJn> <object>]. 
    User: Find the closest trash bin to <OBJ013>. 
    Assistant: There are two trash bins, <OBJ023> and <OBJ032>, both located near the chair.
    

    Decoder

    VisionLLM

    《VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks》

    we propose a new information transmission mechanism termed “super link”, as a medium to connect MLLM with task-specific decoders. It not only allows flexible transmission of task information and gradient feedback between the MLLM and multiple downstream decoders but also effectively resolves training conflicts in multi-tasking scenarios.

    image

    训练:先检查answer中是否有路由token:[SEG],[DET]等,有的话则在其后插入对应的可学习的特定任务的embedding,将这些embedding送到llm中和其他token进行交互。

    image

    实现细节:

    'According to the provided front_right_image:, front_image:, front_left_image:, back_right_image:, back_image:, back_left_image:, please identify lane markings in the scenes.'

    'The lane markings are [DET][EMB][EMB2][EMB3][EMB4][EMB5][EMB6][EMB7][EMB8][EMB9][EMB10][EMB11][EMB12][EMB13][EMB14][EMB15][EMB16][EMB17][EMB18][EMB19][EMB20][EMB21][EMB22][EMB23][EMB24][EMB25][EMB26][EMB27][EMB28][EMB29][EMB30][EMB31][EMB32][EMB33][EMB34][EMB35][EMB36][EMB37][EMB38][EMB39][EMB40][EMB41][EMB42][EMB43][EMB44][EMB45][EMB46][EMB47][EMB48][EMB49][EMB50].'

    Auxiliary Tasks

    OmniDrive

    训练流程:

    1. 2D-Pretraining:预训练Carrier Queries和Q-Former对齐图像特征和语言模型,图片对数据集和指令集微调数据集均来自LLaVA v1.5

      1. 移除感知Query,在2D图片文本对上训练Q-Former;
      2. 仅冻结Image Encoder,在指令集微调数据集上微调模型,提升指令集理解和执行能力;
    2. 3D-Finetuning:保留2D理解能力的同时增加模型的3D定位能力

      1. 给Q-Former增加3D时序模块;
      2. 小学习率微调视觉encoder和大语言模型(LoRA);
      3. 大学习率训练Q-Former3D

    image

    训练数据,每帧数据QA组成:

    1. VQA

      1. 1个 scene-action
      2. 1个 shortly describe action - action from keyword ???
      3. 若干个关于驾驶场景的问题(给定图片、scene-action生成)
      4. 4个涉及:影响驾驶的障碍物、自车决策、反现实推理问题(给定GPT车道、障碍物坐标等信息生成)(回答VCS坐标) 通过BEV可视化
    2. Online VQA: (回答VCS坐标)

      1. n=2个 提供相机名称、像素坐标,回答该障碍物的类别、和自车的相对位置关系、vcs坐标、长宽高角度、速度信息(如果该障碍物速度大于0.2),每个问题只询问一个障碍物;
      2. n=2个 提供 提供VCS点坐标,回答该点10米内有哪些障碍物及其3D信息(同a)
      3. n=2个 提供车道线三次贝塞尔曲线控制点,回答该车道上有哪些障碍物(同a)
    3. 自车轨迹:1个无理由自车轨迹生成

    Loss

    Regression-like Loss

    《Regress, Don’t Guess – A Regression-like Loss on Number Tokens for Language Models》

    提出两个损失:

    1. The first is based on an Lp loss between the ground truth token value and the weighted sum of the predicted class probabilities.
    2. The second loss minimizes the Wasserstein-1 distance between the distribution of the predicted output probabilities and the ground truth distribution

    image

    数值损失作为额外损失,只施加在数字token上,实验效果表明Wasserstein-1效果更好:

    image

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/907499.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PCR406-ASEMI智能家居专用PCR406

PCR406-ASEMI智能家居专用PCR406编辑:LL PCR406-ASEMI智能家居专用PCR406 型号:PCR406 品牌:ASEMI 封装:TO-92 阻断电压:600V 通态电流:0.6A 类型:单向可控硅 浪涌电流:10A 工作温度:-40℃~150℃ 灵敏触发与低功耗‌ 触发电流低至‌5~200μA‌(分段可选),门极触发电…

SvelteKit 最新中文文档教程(14)—— 错误处理

前言 Svelte,一个语法简洁、入门容易,面向未来的前端框架。 从 Svelte 诞生之初,就备受开发者的喜爱,根据统计,从 2019 年到 2024 年,连续 6 年一直是开发者最感兴趣的前端框架 No.1:Svelte 以其独特的编译时优化机制著称,具有轻量级、高性能、易上手等特性,非常适合构…

银行网点加钞间作业人数异常报警系统

银行网点加钞间作业人数异常报警系统检测银行网点加钞间区域内作业人数,对超过设定人数阈值,进行预警。加钞间少于2人进行报警,规范员工操作,落实银行制度。自助环境区域、防护舱内区域重点关注大于等于2人,预防案件发生。通过人脸识别比对系统,对加钞间非授权人员进行检…

RAGFlow部署

参照https://eogee.com/article/detail/17进行 其中主要就是放开ragflow/docker/.env文件中的RAGFLOW_IMAGE华为云镜像地址 修改ragflow/docker/docker-compose.yml文件中的端口 Q:访问网页注册登录无反应 打开控制台看是报了502的错误 A:确保mysql,redis,minio,es等先启动,然…

多模态AI核心技术:CLIP与SigLIP技术原理与应用进展

近年来,人工智能领域在多模态表示学习方面取得了显著进展,这类模型通过统一框架理解并整合不同数据类型间的语义信息,特别是图像与文本之间的关联性。在此领域具有里程碑意义的模型包括OpenAI提出的CLIP(Contrastive Language-Image Pre-training,对比语言-图像预训练)和…

在岗人数分析报警摄像机

在岗人数分析报警摄像机采用AI算法,通过大量真实的场景样本训练后,能够在各种应用场景下及时准确地对场景中人员数量的分析统计预警。在岗人数分析报警摄像机是可以实时分析一个指定值班域内的人员数量,当所监视区域的值班人员数量少于设定的阀值时摄像机输出开关量信号,可…

工厂车间在岗人数分析预警系统

工厂车间在岗人数分析预警系统基于AI人工智能分析技术,将车间生产区域员工在岗人数进行管理预警,可以实现对厂区的全面覆盖,全天候保障厂区生产安全,建立完善长效的安全生产运营机制。在岗人数分析预警系统嵌入AI人员离岗分析算法,可对车间生产区域内人员的数量进行精确分…

虚拟机vmware16 安装centos8.5 你全流程和详细配置

因为centos8.5 不能使用他自己的源,所以新装的系统默认不能安装软件,需要做一些配置 其二。部份虚拟机新装的不能连网,所以我将今天安装的流程记录以下,如果正好有别人需要,可以看一下我安装的流程第一步,如果不能上网配置。先装虚拟机配成桥接试试,可能是默认上nat 那…

FaceBook OAuth2登录配置

应用必须上架才能正式使用FaceBook developers 后台添加应用配置https://developers.facebook.com 创建应用,應用程式設定 -》 添加IOS包名,添加安卓包名, 應用程式編號,應用程式密鑰 对应服务端配置: FacebookLoginAppId FacebookLoginAppSecret 首次登录访问提示错误,错…

itdog-ping

地址 https://www.itdog.cn/ping/ 概览作者:mohistH 出处:https://www.cnblogs.com/pandamohist/ 本文版权归作者和博客园共有,谢绝一切形式的转载,否则将追究法律责任。

某客户RAID出现Multi-bit ECC error错误

某客户反馈,BMC带外有Major级别的告警,告警内容如下可以看出SEL指向RAID卡,产生告警时间为2024年11月14日。检查RAID卡日志,找2024年11月14号发生的事件。从RAID卡事件可以看出来RAID卡从2024年11月9号到2024年11月14号,5天内并没有记录任何日志(如下图)一直到2024年11月…

直播软件怎么开发,Redis触发扩容的两种情况

直播软件怎么开发,Redis触发扩容的两种情况1、如果没有fork子进程在执行RDB或者AOF的持久化,一旦满足ht[0].used >= ht[0].size,此时触发扩容;2、如果有fork子进程在执行RDB或者AOF的持久化时,则需要满足ht[0].used > 5 * ht[0].size,此时触发扩容。下面将结合源码…