2024年9月学习月报

news/2024/10/9 2:48:21/文章来源:https://www.cnblogs.com/cyb66666/p/18453371

一、学习目标

  • 学习 VLM 的基本原理和架构,理解视觉和语言信息的融合方式,掌握 VLM 的训练方式与评估方法。
  • 学习 VLM 在遥感领域的应用(RemoteCLIP、ChangeCLIP),并尝试本地复现。

二、学习内容

文献

An Introduction to Vision-Language Modeling

VLM 按照训练方式可以分为四种:

  1. 基于对比式训练的 VLM
    通过对比式学习的方法来对齐图像和文本之间的表示,使得模型能够理解和生成跨模态的内容。一般是用 InfoNCE 作为损失函数。常见的基于对比式训练的 VLM 有 CLIP。

  2. 基于掩码目标的 VLM
    通过掩码部分图像或文本,模型被迫理解未掩盖部分的上下文,从而提高对整体图像和文本关系的理解能力。然而,更多学习的是图像的表象特征(如纹理等),难以捕获深层的语义信息,并且不适合做生成任务。

    • 在 FLAVA 模型中,图片被分为多个 patch,经过 dVAE 映射后随机替换 patches,文本则随机用 ‘[mask]’ 遮蔽,概率都为 15%。经过各自的多模态编码器得到输出后进行融合。
  3. 基于生成的 VLM
    通过生成任务让模型学习视觉和语言的多模态表示。

    • CoCa 通过对比训练学习图像和文本之间的对比关系,然后在生成任务中根据图像逐步生成文本描述,模型同时优化这两种任务的损失。
  4. 基于预训练骨干网络的 VLM
    通过利用预训练模型,使模型只需要学习一个文本模态和图像模态之间的映射,从而减少计算资源的需求。然而,仅仅学习文本和视觉表示之间的映射可能不足以捕捉两者之间的深层次关联。

VLM 训练指南

  1. 训练数据
    通过其他模型生成合成数据,数据增强,人工标注。

  2. 软件
    (待补充)

  3. 模型选择

    • 基于对比式训练的 VLM 适合做图像-文本对齐或图像-文本检索任务。
    • 基于掩码语言或图像的 VLM 适合处理上下文依赖的任务,如视觉问答、图像字幕生成。
    • 基于生成的 VLM 通常以生成任务为主。
    • 基于预训练骨干网络的 VLM 在计算资源有限的情况下很有帮助。

论文

RemoteCLIP: A Vision Language Foundation Model for Remote Sensing

  • RemoteCLIP 的创新之处主要有数据扩展策略,通过 box-to-caption (B2C) 方法将目标框转换为文本注释,使目标检测数据集能够用于训练。对于语义分割数据集,另外通过 mask-to-box (M2B) 将掩码转为目标框。这个方法扩充了数据集,解决了训练数据不足的问题。
  • RemoteCLIP 还可以完成目标计数任务,通过将原始描述中的数字替换为 1 到 10 的所有可能数字,生成九个额外的描述,并计算图像与每个描述的相似度分数,获取最高分。但精确度有限。(感觉引入目标检测任务会更加精确)

ChangeCLIP

  • ChangeCLIP 主要用于视觉变化检测任务,由四个模块组成:
    1. 第一个模块利用 CLIP 模型生成两张不同时刻的遥感图像的文本提示。
    2. 第二个模块用 CLIP 的图像和文本编码器作为特征提取器。
    3. 第三个模块加入了差异特征补偿 (DFC) 模块,增强模型捕获双时态变化的能力。
    4. 第四个模块是一个视觉-语言解码器。

下载在 SYSU_CD 数据集上预训练的权重的本地测试结果:

  • Idea:如果改进模型使之能监测城市建筑的增减(具体数量),或者植被覆盖率的变化,帮助城市的管理。

三、下阶段目标

计划探索多模态的目标检测或语义分割任务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/810287.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

31. 数据库基础

1. 数据库基础知识 1.1 关系型数据库与非关系型数据库1.2 关系型数据库的结构 库 Database 库,也称数据库,用于组织、存储和管理数据 类比于文件夹 表 Table 表,是数据库中基本的数据存储单位,由行(Row)和列(Column)组成 类比于excel文件 记录 Record 记录,是表中的一…

KeyShot基础操作2 - 材质篇

介绍了KeyShot的材质相关的内容:上材质、材质参数、贴图类型、映射类型、材质节点图等。​这部分基础操作,只是介绍KeyShot的操作方法,望知晓。 后续也会再更新材质、打光的案例,同时也会提供对应的工程文件。上材质基础操作 材质的通用参数 材质类型 纹理类型 多层材质 贴…

创建进程,设计信号量同步机制,实现多线程同步 - C语言版

环境:Windows11 编译器:Visual Studio 2019相关头文件: #include <windows.h> #include <stdio.h>相关函数:睡眠等待函数:Sleep(int millisecond); 睡眠等待一定时间,会造成OS重新调度其它的线程运行Sleep(10); //当前线程睡眠10毫秒后重新执行创建进程Cre…

古典+ezRSA

​ 古典密码在线工具:https://ctf.bugku.com/tools.html 一键解码工具库:随波逐流,在github上下载即可 注:古典密码只需做个了解,因为很多都是靠工具实现的,多刷题有个印象,遇到题能看出像什么密码就好。 Base家族 在密码学领域,"base" 通常指的是一种编码方…

【专题】2024年母婴行业发展趋势洞察报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37818 在当今消费市场中,母婴领域正经历着深刻的变革。随着需求日益多元化,母婴用户的消费习惯和选购考量因素发生了显著变化。 分龄分层产品逐渐成为主流,这背后是用户对个性化解决方案的追求以及对孩子成长各方面的细致关注。同时,母婴…

Serilog文档翻译系列(七) - 应用设置、调试和诊断、开发接收器

Serilog支持通过App.config和Web.config中的01、应用设置 Serilog 支持在 App.config 和 Web.config 文件中使用简单的 配置语法,以设置最低日志级别、为事件添加额外属性以及控制日志输出。 Serilog 主要通过代码进行配置,设置支持旨在作为补充功能。虽然不是全面的,但大多…

【视频讲解】Python量子计算聚类Q-means:量子k-means算法分析电路数据实现可视化

全文链接:https://tecdat.cn/?p=37821 原文出处:拓端数据部落公众号 分析师:Yifan Zhang 量子计算在近期已然成为一个频繁出现的热门概念。尽管它在大众认知以及互联网社区中备受瞩目,热度极高,然而就其实际能力而言,当前仍然存在诸多局限。 量子计算作为一个全新的领域…

每日打卡

今天连接phoenix,版本是5.1.3-hbase-2.5,主要连接dbeaver,idea老是报错。

20222417 2024-2025-1 《网络与系统攻防技术》实验一实验报告

1.实验内容 (1).掌握反汇编与十六进制编程器 (2).能正确修改机器指令改变程序执行流程 (3).能正确构造payload进行bof攻击 2.实验过程 (1).直接修改程序机器指令,改变程序执行流程 将pwn1文件放入共享文件夹,后续在kali中使用,再将文件复制到实验文件夹share路径…

第一课 php基础语法 变量 函数

php语法<?php// 代码段   ?> php输出方法:echo 和 print不同点:echo-能够输出一个以上的字符串,英文逗号隔开print-只能输出一个字符串,并始终返回1echo 比 print 稍快,并且开销低 注释注释不会被作为程序来读取和执行。它唯一的作用是供代码编辑者阅读(让别人…

CentOS 8 停止维护后通过 rpm 包手动安装 docker

根据 Docker官方文档 的指引,进入 Docker rpm 包下载的地址,根据自己系统的架构和具体版本选择对应的路径这里我使用 https://download.docker.com/linux/centos/7/x86_64/stable 版本,根据 docker 官方的给出的安装命令选择性的下载对应的 rpm 包最终使用 yum 命令安装下载…

02 Vue默认项目说明

1. node_modules pnpm 安装的第三方依赖 2. public 公共资源,存放网页图标等 3. src 开发代码存放位置 3.1 项目入口文件 main.ts import { createApp } from vue // 引入vue import ./style.css // 引入默认样式 import App from ./App.vue // 引入页面 App.VuecreateApp(App…