论文阅读——RemoteCLIP

RemoteCLIP: A Vision Language Foundation Model for Remote Sensing

摘要——通用基础模型在人工智能领域变得越来越重要。虽然自监督学习(SSL)和掩蔽图像建模(MIM)在构建此类遥感基础模型方面取得了有希望的结果,但这些模型主要学习低级别特征,需要注释数据进行微调,并且由于缺乏语言理解,不适用于检索和零样本应用。为了应对这些限制,我们提出了RemoteCLIP,这是第一个用于遥感的视觉语言基础模型,旨在学习具有丰富语义的健壮视觉特征,以及用于无缝下游应用的对齐文本嵌入。为了解决预训练数据的稀缺性,我们利用数据缩放,基于Box-To-Caption(B2C)和Mask-To-Box(M2B)转换转换异构注释,并进一步合并无人机图像,生成12倍大的预训练数据集。RemoteCLIP可应用于各种下游任务,包括零样本图像分类、线性探测、k-NN分类、少拍摄分类、图像-文本检索和对象计数。对16个数据集的评估,包括新引入的用于测试对象计数能力的RemoteCount基准测试,表明Remote CLIP在不同的模型规模上始终优于基线基础模型。令人印象深刻的是,RemoteCLIP在RSICD数据集上的平均召回率比以前的SoTA高9.14%,在RSICD数据集上高8.92%。对于零样本分类,我们的RemoteCLIP在12个下游数据集上的平均准确率高达6.39%,优于CLIP基线

主要介绍数据集生成过程。

框到文本描述(B2C)生成允许基于边界框注释和标签生成对象检测数据集的文本描述。

该方法采用基于规则的方法来生成描述图像中对象的五个不同的字幕,算法1概述了B2C方法。具体来说,前两个字幕是根据目标位置(边界框的中心点)生成的:第一个字幕描述图像中心的对象,而第二个字幕描述不位于中心的对象。这种区分提供了关于图像内对象的空间分布的附加上下文和信息。剩下的三个字幕是通过考虑图像中存在的不同对象类别的数量而生成的。将从边界框注释列表中选择随机对象,并相应地生成标题。如果一个对象的出现次数超过10次,则使用更通用的术语(例如“很多”、“很多”)而不是确切的数字,以增强标题的可读性和可变性。

也有mask到框,再框到描述。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/543306.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI智慧校园电子班牌云平台源码

目录 家长端 学校端 电子围栏 亲情通话 课堂答题 移动化管理模式 统一资源管理平台 模板内容智能更换 家校互联 家长端 多场景通话:上学放学联系、紧急遇险求助联系、日常亲情通话关注孩子人身安全:到校离校情况、进入危险区域预警等。 学校端 课堂秩序管理:提高教…

鸿蒙Harmony应用开发—ArkTS声明式开发(容器组件:Counter)

计数器组件,提供相应的增加或者减少的计数操作。 说明: 该组件从API Version 7开始支持。后续版本如有新增内容,则采用上角标单独标记该内容的起始版本。 子组件 可以包含子组件。 接口 Counter() 从API version 9开始,该接口…

【网站项目】320社区物业管理系统

🙊作者简介:拥有多年开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…

MySQL-HMA 高可用故障切换

本章内容: 了解MySQL MHA搭建MySQL MHAMySQL MHA故障切换 1.案例分析 1.1.1案例概述 目前 MySQL 已经成为市场上主流数据库之一,考虑到业务的重要性,MySQL 数据库 单点问题已成为企业网站架构中最大的隐患。随着技术的发展,MHA…

广度优先算法(一篇文章讲透)

目录 引言 一、算法概述 二、算法步骤 1 初始化 2 循环处理 三、算法应用 1 图的最短路径问题 2 网络爬虫 3 社交网络分析 4 游戏路径搜索 事例 四、算法特点与性能 五、性能优化 1 剪枝策略: 2 使用高效的数据结构: 3 并行化处理&#…

sparksession对象简介

什么是sparksession对象 spark2.0之后,sparksession对象是spark编码的统一入口对象,通常我们在rdd编程时,需要SparkContext对象作为RDD编程入口,但sparksession对象既可以作为RDD编程对象入口,在sparkcore编程中可以通…

这些赚钱项目可以主业副业两不误

在如今竞争激烈的社会中,拥有一份可靠的职业是我们追求稳定收入的首选。然而,为了应对生活成本的不断增加和个人发展的需求,更多的人开始寻求一种既能兼顾主业,又能增加额外收入的副业机会。 生活中有这么一些人,他们将…

YOLOv7 | 添加GSConv,VoVGSCSP等多种卷积,有效提升目标检测效果,代码改进(超详细)

⭐欢迎大家订阅我的专栏一起学习⭐ 🚀🚀🚀订阅专栏,更新及时查看不迷路🚀🚀🚀 YOLOv5涨点专栏:http://t.csdnimg.cn/QdCj6 YOLOv7专栏: http://t.csdnimg.cn/dy…

代码随想录训练营Day24:● 理论基础 ● 77. 组合

理论基础 回溯算法解决的问题 回溯法,一般可以解决如下几种问题: 组合问题:N个数里面按一定规则找出k个数的集合 切割问题:一个字符串按一定规则有几种切割方式 子集问题:一个N个数的集合里有多少符合条件的子集 排列…

Linux 学习笔记(16)

十六、 计划任务 在很多时候为了自动化管理系统,我们都会用到计划任务,比如关机,管理,备份之类的操作,我 们都可以使用计划任务来完成,这样可以是管理员的工作量大大降低,而且可靠度更好。 l…

C++算法学习心得八.动态规划算法(4)

1.零钱兑换(322题) 题目描述: 给定不同面额的硬币 coins 和一个总金额 amount。编写一个函数来计算可以凑成总金额所需的最少的硬币个数。如果没有任何一种硬币组合能组成总金额,返回 -1。 你可以认为每种硬币的数量是无限的。…

代码随想录|Day21|回溯01|77.组合

77.组合 组合问题不考虑顺序,例如 [1, 2] 和 [2, 1] 是同一个组合。其中 n 为取数的范围,每个组合包含 k个 元素数量,所以我们嵌套 k 个 for循环 可以很容易写出暴力解法。但如果 k 的值过大,代码将会非常冗长。 我们考虑回溯&…