论文阅读——RingMo

RingMo: A Remote Sensing Foundation Model With Masked Image Modeling

与自然场景相比,RS图像存在以下困难。

1)分辨率和方位范围大:受遥感传感器的影响,图像具有多种空间分辨率。此外,与自然图像的实例通常由于重力而具有固定方向不同,遥感图像中的物体从鸟瞰角度来看具有很大的角度分布范围。因此,由于尺度和角度的多样性,同一物体在不同的RS图像中具有不同的特征。

2)许多密集和小物体:大部分自然图像包含少量物体。例如,ImageNet 数据集每个图像平均包含少于三个对象实例 [33]。如图1所示,遥感图像通常大而宽,覆盖数百公里。 RS图像中存在许多小物体,而且它们通常分布较密集,这在一定程度上影响了物体级解释的精度。

3)背景复杂:由于RS图像包含较大的场景,除了感兴趣的物体外,图像还包含大量的背景信息,导致图像的信噪比较低。物体的边界和背景模糊,干扰物体分类。而且遥感图像容易受到天气、光线、云、雾等外界因素的干扰,影响成像质量。

本文的贡献可以概括为四个方面。

1)我们提出RS领域第一个生成式自监督基础模型框架(RingMo)。该框架利用大量遥感数据来获取一般特征表示并提高各种遥感解释任务的准确性。

2)为了增强基础模型对遥感数据的处理能力,我们根据遥感图像的特性设计了一种自监督方法,改善了之前的掩模策略可能忽略复杂遥感场景中密集和小物体的情况。

3)在没有任何人类监督的情况下,我们收集了包含 200 万张图像的 RS 数据集,这些图像是从卫星和空中平台捕获的,涵盖六大洲的不同物体和场景。这种包含大量且多样化的遥感图像的数据集提高了基础模型对不同场景的适应性。

4) 在收集的数据集上使用 RingMo 训练方法推导基础模型后,我们在四个典型的 RS 任务上对其进行微调。实验表明,我们的方法在八个下游数据集上实现了 SOTA,并验证了我们的 RS 基础模型在各种应用上的有效性和泛化性。

模型:

PIMask Strategy:

如图 4 中左侧红色补丁所示,我们没有完全屏蔽图像补丁,而是随机保留屏蔽补丁中的一些像素。采用这种掩模策略,可以有效保留小目标的部分像素信息。就像图 4 中的蓝色补丁所示,我们增加了掩模补丁的数量以保持总掩模比率不变。此外,为了更好地利用这些保留像素,采用多层卷积来实现块嵌入。一些相关研究人员通过实验证明,在ViT中添加早期卷积层可以帮助模型更好地学习图像特征[67]。具体来说,在卷积过程中,我们让卷积核只在每个patch内部计算,这不能打破模型的mask约束。与传统的嵌入结果不同,多层卷积后的所有标记都具有特征信息,这进一步提高了编码器的学习效率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/539683.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

接上一篇:分布式调用链追踪系统设计

所以必须得记录父子关系: A---->B 是 B---->C 的父调用 A---->D 是 D---->E 的父调用 A---->D 还是 D---->F 的父调用 如何记录呢?需要给每个调用分配一个ID (称为 SpanID),并且把这个 ID 传递给子调用, 子…

2024.3.14jsp

一、实验目的 1、安装配置JSP运行环境 2、设置web服务目录,修改TomCAT服务器的端口号、访问web服务目录下的jsp页面。 二、实验项目内容(实验题目) 1、编写两个简单的JSP页面;参考第一章上机实验1、2 (1&#xff09…

html--bug

文章目录 html html <!DOCTYPE html> <html><head><meta charset"UTF-8"><title>老师</title><style>body {background-color: #008000;margin: 0px;cursor: none;overflow: hidden;}</style></head><bod…

Jmeter+ant,ant安装与配置

1.ant含义 ant&#xff1a;Ant翻译过来是蚂蚁的意思&#xff0c;在我们做接口测试的时候&#xff0c;是可以用来做JMeter接口测试生成测试报告的工具 2.ant下载 下载地址&#xff1a;Apache Ant - Ant Manual Distributions download中选择ant 下载安装最新版zip文件 3.…

JVM及垃圾回收算法

一、JVM 1、jvm的内存组成 五大内存区域&#xff0c;分1.7和1.8 1.堆内存&#xff1a;引用类型的数据&#xff0c;内部组成&#xff1a;1.新生代&#xff08;伊甸区和幸存者区&#xff09;2.老年代。该区域经常发生垃圾回收的操作 堆是JVM中最大的一块内存区域&#xff0c;用…

installation of package ‘RDocumentation’ had non-zero exit status

installation of package ‘RDocumentation’ had non-zero exit status Warning in install.packages :installation of package ‘httr’ had non-zero exit status Warning in install.packages :installation of package ‘openssl’ had non-zero exit status 由于项目需…

苹果Find My App用处多多,产品认准伦茨科技ST17H6x芯片

苹果发布AirTag发布以来&#xff0c;大家都更加注重物品的防丢&#xff0c;苹果的 Find My 就可以查找 iPhone、Mac、AirPods、Apple Watch&#xff0c;如今的Find My已经不单单可以查找苹果的设备&#xff0c;随着第三方设备的加入&#xff0c;将丰富Find My Network的版图。产…

sqllab第十九关通关笔记

知识点&#xff1a; 错误注入 最大长度为32位&#xff1b;如果目标长度>32时&#xff0c;需要利用截取函数进行分段读取referer注入 insert语句update语句 通过admin admin进行登录发现页面打印除了referer字段的信息 这应该是一个referer注入 首先进行测试一下 构造payl…

Python基于 opencv 的人脸识别考勤系统(V1.0),附源码

博主介绍&#xff1a;✌程序员徐师兄、7年大厂程序员经历。全网粉丝12W、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专栏推荐订阅&#x1f447;…

先验分布、后验分布、极大似然的一点思考

今天和组里同事聊天的时候&#xff0c;无意中提到了贝叶斯统计里先验分布、后验分布、以及极大似然估计这三个概念。同事专门研究如何利用条件概率做系统辨识的&#xff0c;给我画了一幅图印象非常深刻&#xff1a; 其中k表示时序关系。上面这个图表示后验分布是由先验分布与似…

flutter环境搭建实践

Dart Dart 是一种客户端和服务器端的编程语言&#xff0c;最早由 Google 提出。它被设计用于构建高性能、高度可伸缩和可靠的应用程序。Dart 可以编译成本地代码或者在虚拟机中直接运行。在移动应用开发中&#xff0c;Dart 主要用于开发 Flutter 应用。 Flutter 和 Dart 的关…

gin框架教程笔记

参考 官方中文文档&#xff1a;https://gin-gonic.com/zh-cn/docs/introduction/ 但是示例截图少 https://www.kancloud.cn/shuangdeyu/gin_book/949411 https://www.topgoer.com/gin%E6%A1%86%E6%9E%B6/ 这个网站不光有gin框架 适合阅读 吉米老师的 &#xff1a;https://www…