论文阅读—— UniDetector(cvpr2023)

arxiv:https://arxiv.org/abs/2303.11749

github:https://github.com/zhenyuw16/UniDetector

一、介绍        

通用目标检测旨在检测场景那种的一切目标。现有的检测器依赖于大量数据集

        通用的目标检测器应该有两个能力:1、可以利用多种来源的图片和标签训练2、可以很好的泛化到开放世界,对于没见过的类别也可以预测。

        传统的目标检测,rcnn系列,只能在封闭数据集上,后来发展的开放词汇目标检测很大程度提升了性能,也能泛化到一些非常见类别,但是仍然只在一个数据集迁移,同时见过的类别比没见过的类别多,泛化能力受到限制。在多数据集上训练的问题是需要统一标签空间,为此提出了一些方法但是这些方法仍然关注于在封闭数据集上检测。  

二、The UniDetector Framework

Step1: Large-scale image-text aligned pre-training.

        采用RegionCLIP参数:We adopt RegionCLIP pre-trained parameters for our experiments.

Step2: Heterogeneous label space training.

1、对于处理不同来源的数据,考虑三个问题,架构、采样和损失函数选择

        1)提出了三种处理不同来源标签的架构:

        2)训练大规模数据集,一个不可避免的问题是长尾效应。之前用在封闭数据集上解决这个问题的方法不太管用因为通用检测器有没见过的类别。对于语言嵌入,长尾问题的不利影响可以忽略不计。因此,我们采用了随机采样器。(With language embeddings, the adverse effect of the long-tailed problem becomes negligible. We thus adopt the random sampler.)

        3)损失函数

        使用基于sigmoid的损失函数,同时当类别数量增加时,为了避免基于sigmoid的分类损失过大,随机抽取一定数量的类别作为负类别。

2、解耦RPN区域生成和ROI分类的训练

        1)传统的两阶段目标检测器,包括backbone encoder, a RPN and a RoI classification module。RPN是类别无关的,使用与通用目标检测,但是特定类别的RoI分类模块依然不能用于罕见类别。所以作者解耦了这两个阶段,分别训练。也就是,用ImageNet预训练参数初始化RPN模块,类别不相关方式训练,训练完成后就会产生一系列region proposals。然后对于这些区域,ROI分类模块用Fast RCNN方式训练,这个阶段用imagetext预训练参数初始化来预测没见过的罕见类别。用到的这两种预训练参数包含互补信息,对通用检测提供了理解信息。

        2)CLN模块:是在RPN模块后面ROIHead

        

        

        s_{i}^{r1}s_{i}^{r2}s_{i}^{c}分别是RPN和ROI的localization confidence以及ROIHead的classification confidence。

Step3: Open-world inference.

        提出概率对准

        开放世界推理阶段有个问题,训练集中出现的类别(基础类别)推理得出的分数会高于罕见类别,这样就会使检测器忽略大量的没见过的类别实例。于是作者在后处理阶段提出了概率对准,目的是降低基础类别概率增加没见过类别的概率,概率对准公式如下:

\pi_{j}是类别的先验概率,值越大说明模型越偏向这个类别可以在测试集上推理一遍,根据得到的结果中每个类别的数量获得\pi_{j}的值,如果测试集太小,也可以使用训练集。\gamma是超参数。

最终的预测分数使用上面公式的p_{ij}和CLN模块的目标分数\eta_{i}相乘,再引入超参数β得到:

三、一些训练细节

训练数据集:

COCO:80类,稠密高质量人工标注,作者从中随机采样了35K训练

Objects365:365类,更大规模,作者从中随机采样了60K训练

OpenImages:500类别,许多标注稀疏并且是脏数据,作者从中随机采样了78K训练

推理数据集:

LVIS:LVIS v0.5有1230类别,LVIS v1有1203类别

ImageNetBoxes:3000多类别

VisualGenome:7605类别,相当一部分数据是机器标注,所以噪声非常多

实现细节:使用mmdetection实现,选择ResNet50-C4 based Faster RCNN as our detector, initialized with RegionCLIP pre-trained parameters。超参数设置,\tau=0.01,\gamma=0.6,\alpha=\beta=0.3

四、一些实验结果

   

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/161104.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

asp.net人事管理信息系统VS开发sqlserver数据库web结构c#编程Microsoft Visual Studio

一、源码特点 asp.net 人事管理信息系统是一套完善的web设计管理系统,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为vs2010,数据库为sqlserver2008,使用c#语言 开发 asp.net 人事管理系统1 应用技术…

宠物医院服务预约小程序的效果如何

随着养宠家庭增多及对爱宠的照顾加深,除了食品、服饰外,宠物医院近些年也迎来了较高发展,部分城市甚至聚集着众多品牌,以单店或多店品牌的方式拓展市场。 对宠物医院来说,一般都是拓展同市客户,或者多门店…

强化学习的动态规划三

一、策略的改进 假设新的贪婪策略π0与旧的策略π效果相当,但并不优于π。由此得出vπvπ0,且根据之前的推导可以得出:对于所有的s∈S 这与贝尔曼最优方程相同,因此,vπ0是v∗,π和π0是最佳策略。因此&…

类和对象 下

构造函数 初始化列表 构造函数是在构造类的时候给对象赋初值,并不是给类的成员函数初始化,赋值可以赋多次,而初始化只能初始化一次,这里我们引入初始化列表来对成员函数进行初始化 初始化列表,以冒号 :开…

JavassmMYSQL宠物领养系统08465-计算机毕业设计项目选题推荐(附源码)

目 录 摘要 1 绪论 1.1课题背景及意义 1.2研究现状 1.3ssm框架介绍 1.3论文结构与章节安排 2 宠物领养系统系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1 数据流程 3.3.2 业务流程 2.3 系统功能分析 2.3.1 功能性分析 2.3.2 非功能性分析 2.4 系统用例分析 …

深入剖析:正则表达式的奥秘

简介 正则表达式(Regular Expressions)是一种强大的文本处理工具,一种用于匹配文本模式的字符串。它由特定的字符和操作符组成,用于定义一个搜索模式。这些搜索模式可以用于文本搜索、替换、验证和提取数据等多种用途。 以下是一…

火狐浏览器导入burpsuite CA 证书无法正常上网

当我们给火狐浏览器设置burpsuite代理,并给火狐导入了burpsuite的CA证书后,仍然无法上网的解决方法。 当我们把浏览器的代理配置好之后,浏览器导入证书,burpsuite设置好代理后,如上图,仍然无法上网&…

【后端开发】手写一个简单的线程池

半同步半异步线程池 半同步半异步线程池分为三层: 同步服务层 —— 处理来自上层的任务请求,将它们加入到排队层中等待处理。 同步排队层 —— 实际上是一个“同步队列”,允许多线程添加/取出任务,并保证线程安全。 异步服务层…

Nginx服务器安装证书并启用SSL(acme.sh)

前提 您已购置vps服务器,例如阿里云全球站ecs、AWS EC2、Azure VM、GCP Compute等安全组已开启80、443端口,且访问源设置为0.0.0.0/0域名已设置A记录指向当前操作服务器,若您使用aws ec2,有公有 IPv4 DNS,可供使用 安…

视频视觉效果制作After Effects 2023 MacOS中文

After Effects 2023是一款业界领先的动态图形和视觉特效软件。它提供了强大的工具集,帮助用户创建引人入胜的视觉效果、动态图形和电影级特效。新的版本带来了更快的渲染速度、增强的图像处理和优化的工作流程,使用户能够更高效地工作。无论您是在电影、…

阿里云域名实战

一、准备阿里云服务器,实现网站功能 (1)百度搜索阿里云 (2)登录阿里云 可以使用支付宝,淘宝账号登录 (3)点击控制台 (4)创建实例,购买云服务器 (5&#x…

SSH服务

目录 ​编辑 一、SSH服务基础知识 1、ssh服务介绍 2、ssh服务的配置文件路径 3、查看ssh服务的运行状态 二、SSH服务常用命令 - ssh 1、 SSH服务器 启动/关闭/重启 2、SSH远程连接语法 3、利用ssh协议传输文件和获取文件 4、SSH服务免密登陆 一、SSH服务基础知识 1、…