DRM:清华提出无偏差的新类发现与定位新方法 | CVPR 2024

news/2024/9/18 3:42:16/文章来源:https://www.cnblogs.com/VincentLee/p/18357527

论文分析了现有的新类别发现和定位(NCDL)方法并确定了核心问题:目标检测器往往偏向已知的目标,忽略未知的目标。为了解决这个问题,论文提出了去偏差区域挖掘(DRM)方法,以互补的方式结合类无关RPN和类感知RPN进行目标定位,利用未标记数据的半监督对比学习来改进表征网络,以及采用简单高效的mini-batch K-means聚类方法来进行新类发现来源:晓飞的算法工程笔记 公众号

论文: Debiased Novel Category Discovering and Localization

  • 论文地址:https://arxiv.org/abs/2402.18821

Introduction


现有的对象检测方法是在固定类别的封闭数据集上进行训练的和评估的,而在现实场景中,对象检测器需要面对已知对象和潜在未知对象。在训练后,模型就不会识别出训练期间没有看到的任何物体,要么将未知对象视为背景,要么将其错误分类为已知类别。相比之下,人类有感知、发现和识别未知新物体的能力。因此,新类别发现(Novel Category DiscoveryNCD)问题引起了人们的广泛关注,在检测已知对象的同时还要无监督地发现新类别。

大多数NCD方法都先对标记数据集进行预训练步骤,然后对未标记数据进行处理。虽然有效,但大多数方法仅利用已知的对象和类别进行预训练和定位,这会引入两种偏差。首先是使用封闭集训练的检测头引入的有偏差的特征表达,其次是仅在标记的封闭集上训练RPN导致的定位偏差。

为了解决上述问题,论文提出了去偏差NCD方法来减轻特征表达和对象定位中的偏差:

  • 引入半监督对比学习方法使模型能够学习相似实例的相似特征,在将未知类对象与已知类对象区分开。
  • 提出双RPN策略来同时检测图像中的目标对象。一个RPN具有类感知能力,旨在获取已知类的准确定位信息。另一个RPN则与类别无关,旨在定位未标记的目标对象。

论文的贡献可以总结如下:

  • 重新审视开放世界中新类别发现的问题,研究现有方法中的偏差问题。
  • 使用双对象检测器来获得良好的区域提案,可以有效地找到图像中的所有目标对象并更好地定位。
  • 设计一种半监督实例级对比学习方法以获得比以前更好的特征表达,使模型依赖于无标记的图像信息来学习图像特征。
  • 通过大量的实验的结果,表明论文的方法优于其他基线方法。

Framework Details


Overview

整体结构如图 2 所示:

  • 通过半监督对比学习优化特征提取器,学习更通用的特征表达。
  • 通过双RPN模块生成不同的框,再使用ROI pooling来池化特征用作最终提案输入。
  • 通过聚类将具有相似特征的实例被分在一起,从而可以发现不同的未知类别。

Debiased Region Mining

在实际任务中,论文观察到RPN的两种场景:

  • 当遇到未注释的图像时,模型倾向于将它们分类为背景而不定位任何对象。
  • 当模型识别未知物体时,它会错误地将其分类为高置信度的已知物体。

Faster R-CNN中,目标定位器为上游任务的分类头,提取模型感兴趣的已知类。这导致偏向于识别已知目标,严重影响模型的通用性。

在图 3 中,展示了三种不同的RPN的定位表现:

  • 第一种为类感知RPN:此类提案对VOC中的已知对象表现出更高的置信度,从而提高了提案质量。然而,置信度一般的提案往往是聚拢的,通常只包含目标对象的一部分。因此,检测到的对象的泛化能力有限。
  • 第二种为类不可知RPN:通过删除分类头并仅在网络学习objectness来生成提案。尽管与基线相比,提案泛化有所增强,但定位VOC类别的准确性仍未达到最佳水平,并且许多提案仍然表现出聚拢现象。
  • 第三种为论文提出的合并方法:通过从两个框中选择可靠的框,对每个框的置信度进行缩放后通过NMS统一提案。该方法显着提高了提案的质量,能够在不影响已知VOC类别准确性的情况下提取更多目标对象。此外,它有效地解决了提案聚拢问题。

论文认为,现实场景中的NCDL问题应该与开放世界中的对象检测场景更加一致,对象提取器不应受到分类头的限制。因此,论文在Faster-RCNN中额外引入类无关的RPN,可以生成更通用的对象分数并检索更多对象。该RPN将与类相关的损失替换为与类无关的损失,仅通过以下方式估计提案的objectness

  • RPN中使用centerness回归而不是分类损失。
  • ROI头中使用IoU回归而不是的分类损失。

对不同RPN获得的两组框进行可靠性分析,发现两组框在置信区间上的分布不同,表明各有不同优缺点。因此,论文提出了Debiased Region MiningDRM)的方法,通过类感知RPN和类无关RPN获得两组不同的框。类感知RPN获得的框在已知类上具有较高的准确率,但泛化性较差,在未知类上表现不佳。另一方面,由类无关的RPN获得的框在已知类上的表现可能不如前者,但对未知类有更强的泛化能力。将这两组框结合起来,就能得到一套结合了两者优点的新框合集。

假设两组框及其置信度分数表示为 \(\lambda_{1}\) 和 $\lambda_{2} $,分别服从两个不同的分布 \(\Phi_{1}\)\(\Phi_{2}\),需要将这两个分布映射到统一的 \({\Phi}\) 以去除不同框生成方法之间的差距。为了保留置信度较高的框并过滤掉置信度非常低的框,设置阈值 \(\alpha\_i,\beta\_i(i=1,2)\) 来过滤置信度。过滤后合并两组框,使用NMS合并冗余框以获得融合后的结果。

Semi-supervised Contrastive Finetuning

在得到框后,采用实例级半监督对比学习方法来提取更通用和更具表现力的特征。

首先,根据GT框将VOC数据集中的图像裁剪成图像块,构成标记集 \(B_{\mathcal{L}}\)。随后,在__COCO__验证集上生成提案并裁剪出图像块,构成未标记集 \(B_{\mathcal{U}}\)。之后,通过随机增强给每个图像块 \(\mathbf{x}\) 生成两个不同的视图 \(\mathbf{x}^{\prime}\),无监督对比损失计算为:

\[ \mathcal{L}_{i}^{u}=-\left|\mathrm{log}\frac{\mathrm{exp}(\mathbf{z}_{i}\cdot\mathbf{z}_{i}^{\prime}/\tau)}{\sum_{n}\,1_{n\ne i\;\mathrm{exp}(\mathbf{z}_{i}\cdot\mathbf{z}\_{n}/\tau)}}\right|\quad\quad(1)\]

其中 \(\mathbf{z},\mathbf{z}^{\prime}\) 是对应的特征,\(\tau\) 是温度超参数。

对于有标签的图像块,可以利用标签来形成有监督对比损失:

\[ {\mathcal{L}}_{i}^{s}=-{\frac{1}{|{\mathcal{N}}(i)|}}\sum_{q\in{\mathcal{N}}(i)}\frac{\exp(\mathbf{z}_{i}\cdot\mathbf{z}_{q}/\tau)}{\sum_{n}\,1_{n\neq i}\exp(\mathbf{z}_{i}\cdot\mathbf{z}_{n}/\tau)},\quad\quad(2)\]

其中 \(\mathcal{N}(i)\) 表示与 \(\mathbf{x}\_{i}\) 具有相同标签的索引。

最后,总损失构造如下:

\[ \mathcal{L}^{t}=(1-\lambda)\sum_{i\in B}\mathcal{L}_{i}^{u}+\lambda\sum_{i\in B_\mathcal{L}}\mathcal{L}\_{i}^{s}.\quad\quad(3)\]

该损失将用于监督特征提取器的训练。

Clustering


在完成对未知类别对象的对比学习后,模型对获得的信息进行聚类分析,将具有相似特征的未知图像聚合成簇。

使用类似于K-means的方法进行聚类,进行了两个修改:

  • 采用over-clustering策略,通过强制生成另一个更细粒度的未标记数据分区并增加K(估计的聚类数)来提高聚类纯度和特征质量。over-clustering有利于减少监督的介入,允许神经网络决定如何划分数据。在存在噪声数据或中间类被随机分配给相邻类别时,这种切分是有效的。
  • 在新类别发现任务中使用K-means非常耗时,采用Mini-batch K-means(大规模数据中K-means的优化算法)代替。在训练过程中随机采样数据子集来减少训练计算耗时,同时优化目标函数。

聚类算法的主要步骤如下:

  • 提取训练数据的子集,并使用K-means构建K个聚类中心。
  • 从训练集中提取样本数据并添加到模型中,将其分配给最近的聚类中心。
  • 更新每个簇的簇中心。
  • 重复步骤2和3,直到聚类中心稳定或达到最大迭代次数。

Experiments


如果本文对你有帮助,麻烦点个赞或在看呗~undefined更多内容请关注 微信公众号【晓飞的算法工程笔记】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/783399.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

城市信息模型:构建未来智慧城市之基底座

在智慧城市的宏大叙事中,城市信息模型(City Information Model, CIM)平台如同城市智能的神经中枢,将数据、空间与技术深度融合,为城市规划、管理、服务、居民生活提供了前所未有的洞察与优化途径。CIM平台的构建不仅是技术的集成,更是智慧城市的灵魂,它以三维可视化、数…

8.10作业

代码:5秒后跳转马哥教育官网 如下:

ALV TABLE-COTROL

1.画屏幕 2.流逻辑CONTROLS gr_9112_control TYPE TABLEVIEW USING SCREEN 9112.PROCESS BEFORE OUTPUT.MODULE status_9112. *处理LOOP从内表读到表控制LOOP WITH CONTROL gr_9112_control.MODULE filltbl1_9112.ENDLOOP.PROCESS AFTER INPUT. *处理LOOP从表控制更新内表LOOP …

Tornado 龙卷风混币原理

项目背景 Tornado(https://tornado.cash/)是以太坊隐私赛道著名的混币项目,其混币技术主要使用了 zk-SNARK 零知识证明。 1、关于 zk-SNARK 零知识证明的原理可以参见 if(DAO) 之前的文章:https://mirror.xyz/0xd05cFA28Eaf8B4eaFD8Cd86d33c6CeD1a1875417/X3qSOjObTknXQ_iG…

java浅拷贝BeanUtils.copyProperties引发的RPC异常

背景 近期参与了一个攻坚项目,前期因为其他流程原因,测试时间已经耽搁了好几天了,本以为已经解决了卡点,后续流程应该顺顺利利的,没想到 人在地铁上,bug从咚咚来~ 没有任何修改的服务接口,抛出异常: java.lang.ClassCastException: java.util.HashMap cannot be cast t…

RSS 源:在信息洪流中找回你的时间掌控权

简单介绍了 RSS 后,那么关键的一步就是建立好自己的 RSS 源了。200.RSS源管理 简单介绍了 RSS 后,那么关键的一步就是建立好自己的 RSS 源了。 并不是所所有平台都会提供 RSS 源,因此我们也没办法直接去订阅。 目前使用 RSS 的难题之一就是 RSS 源的匮乏,是无数人重新拥抱 …

P5431 【模板】模意义下的乘法逆元 2

看到5e6的数据,500ms的时限,\(O(NlogN)\)快速幂直接跑肯定会T掉,那我们就要考虑优化一下式子。 我们令\(s = \prod_{1}^{n}{a[i]}\) ,那我们给第i个式子通分,就为$ \frac{k^i*s/a[i]}{s} $ \(s/a[i]\) 就相当于$ \prod ^{i-1}_{1}{a[i]}* \prod _{i+1}^{n}{a[i]}$ 因此我们只…

IOS UI自动化脚本

1.安装rethinkdb https://rethinkdb.com/docs/install/osx/ 2.安装bunch包错修复setup.py里面的数据,去掉U 3.imp包变成了importlib需要替换import Imp# moduleFile, pathName, desc = imp.find_module(moduleName, [os.path.dirname(modulePath)])# module = imp.load_module…

Cartographer的扫描匹配

cartographer 代码思想解读(1)- 相关匹配cartographer在2016年开源后一直在使用,但是一直未仔细阅读并分析其核心代码结构。目前网上可以找到许多博主对其分析和理解。其cartographer的基本思想可参考他人的 博主博客。本博客主要目的根据其框架思想,将其核心算法进行提取,…

TapData 信创数据源 | 国产信创数据库 PolarDB MySQL 数据同步指南,加速国产化进程,推进自主创新建设

本专题将以 TapData 正在支持的各国产信创数据源为原点,提供详细的数据库同步、迁移教程,为有需求的用户提供更灵活的工具选择。本文将介绍的 TapData 数据源为——PolarDB。随着国家对自主可控的日益重视,目前在各个行业和区域中面临越来越多的国产化,采用有自主知识产权的…

sqlserver取消阻止表更改

😘宝子:除非不再醒来,除非太阳不再升起,不然都请你好好生活,挣扎着前进,开心的笑。(●◡●)

pbootcms 网站打开提示:未检测到您服务器环境的sqlite3数据库扩展...

pbootcms 网站打开提示:未检测到您服务器环境的sqlite3数据库扩展...按照提示信息操作,检查php.ini中是否已经开启sqlite3扩展。详细介绍->pbootcms提示错误信息 未检测到您服务器环境的sqlite3数据库扩展扫码添加技术【解决问题】专注中小企业网站建设、网站安全12年。熟…