Paper Reading: MixTeacher:半监督目标检测中利用混合尺度教师挖掘有前景的标签

在这里插入图片描述

目录

  • 简介
  • 目标/动机
  • 工作重点
  • 方法
    • 训练
  • 实验
  • 总结

简介

题目:《MixTeacher: Mining Promising Labels with Mixed Scale Teacher for Semi-Supervised Object Detection》, CVPR 2023

日期:2023.3.16

单位:腾讯,上海交通大学,浙江大学,荣旗工业科技公司

论文地址:http://arxiv.org/abs/2303.09061

GitHub:https://github.com/lliuz/MixTeacher

  • 作者

在这里插入图片描述

一作的研究领域方向不是很固定,有关于模型架构研究、重识别、图像生成、目标检测、图像分割、无监督、自监督、半监督都有涉及,我看了一下其为一二作的文章,主要是自监督无监督还有最近的半监督,而且有很多是关于标签或是伪标签的优化方法

  • 其他作者

  • 通讯作者

  • 摘要

对象实例之间的比例变化仍然是对象检测任务中的一个关键挑战。尽管现代检测模型取得了显著进展,但这一挑战在半监督案件中尤为明显。虽然现有的半监督对象检测方法依赖于严格的条件来从网络预测中过滤出高质量的伪标签,但我们观察到,具有极端尺度的对象往往置信度较低,导致对这些对象缺乏积极的监督。在本文中,我们提出了一种新的框架,通过引入混合规模教师来改进伪标签生成和规模不变学习,来解决规模变化问题。此外,我们建议使用跨尺度预测的分数提升来挖掘伪标签,这得益于混合尺度特征的更好预测。我们在各种半监督设置下对MS COCO和PASCAL VOC基准进行的大量实验表明,我们的方法实现了最先进的性能

目标/动机

固有问题:目标检测中不同目标实例之间存在较大的尺度变化,半监督目标检测中尤为明显

现有解决方案:现有的半监督物体检测方法依赖于严格的条件来筛选网络预测中的高质量伪标签

现有方法的不足:尺度极端的物体往往具有较低的置信度,导致这些物体缺乏正向监督

新提出的解决方案:

  1. 引入混合尺度教师来解决尺度变化问题
  2. 引入一个新的指标来挖掘潜在的高质量伪标签

为了保证高精度,大多数现有的半监督对象检测方法采用严格条件(如score>0.9)来过滤得到高置信度的伪标签。产生的问题:对于那些极端尺度的目标,很多低置信度的对象被错误地分配为背景。

表格是关于图像输入尺度对不同大小目标的检测性能的影响:常规尺度1x的输入在整体指标上具有明显优势;缩小尺度0.5x的图像对于大目标具有优势

在这里插入图片描述

输入规则1×尺度和0.5×下采样尺度图像的检测结果。我们绘制了COCO val2017中(a)所有对象和(b)大型对象在不同得分阈值下的精确度和召回率,这些对象具有相同的模型但不同的输入量表。(c)中给出了两个未标记图像的例子。1x输入在总体度量方面具有明显的优势,但下采样图像更适合大型对象。

现有工作已经证明,结合未标记图像的额外下采样视图,并在标签级别(SED)或特征级别(PseCo)上使用一致性约束对网络进行正则化,可以显著提高半监督对象检测的性能

img

**现有的解决方案:**引入一个额外的缩小尺度(0.5x)视图,以获得模型预测结果的尺度不变性。

  1. SED提出从常规尺度到缩小尺度对目标的分类进行预测蒸馏,约束两个尺度上所有proposals的定位的一致性。

  2. PseCo采用从常规尺度生成的相同伪标签作为两个尺度上的标签。

    这些方法主要关注跨尺度预测的一致性,间接改善了模型的性能。

**存在的问题:**高度依赖在常规尺度下教师网络中生成的伪标签,这些方法仍然存在由不恰当尺度引起的错误负样本问题。

在这里插入图片描述

多尺度学习在半监督对象检测方法中的比较。先前的方法[10,17]仅侧重于鼓励对具有不同尺度的输入图像进行一致的预测。所提出的MixTeacher明确引入了混合尺度特征金字塔,以自适应融合来自适当尺度的特征,从而能够检测不同大小的对象。混合尺度特征生成更准确的伪标签,并有助于挖掘有前景的标签,作为一个插件,可以在训练后丢弃。

工作重点

本文提出了一种半监督目标检测框架MixTeacher,该框架利用混合尺度特征金字塔生成高质量的伪标签。

本文提出了一种挖掘伪标签的方法,该方法利用预测的改进作为挖掘有潜力的伪标签的指标。

在各种半监督设置下,本文的方法在MS COCO和PASCAL VOC基准中获得了最先进的性能。

方法

注意:以下大量图片来源于知乎博主的PR,PR地址:https://zhuanlan.zhihu.com/p/649988041

在这里插入图片描述

在这里插入图片描述

在训练过程中,该模型首先使用特征提取模块f(θf)分别为规则尺度1x和下采样尺度0.5x构建两个特征金字塔。接下来,通过特征融合模块g(θg)建立一个额外的混合尺度特征金字塔。学生模型在三个尺度上进行训练,共享检测头h(θh)将教师模型混合尺度生成的伪盒作为监督。此外,使用PLM策略挖掘具有低置信度分数的有前景的标签。教师中的权~θ由学生中的权重θ的EMA更新。在测试中,使用了具有原始架构和常规输入规模的模型。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

请注意,混合尺度金字塔中的第一级是从常规视图直接复制而来,而降采样视图中不存在相应级别

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

训练

在训练过程中,该模型首先分别构建了规则尺度下的特征金字塔和基于特征提取模块的下采样尺度下的特征金字塔。然后,利用特征融合模块,构建混合尺度特征金字塔。学生模型在三个尺度上进行训练,共享检测头,以混合尺度的教师模型生成的pseudo boxes作为监督。
在这里插入图片描述

实验

  • 与SOTA比较
    在这里插入图片描述

指标为在val2017集上的AP50:95。在\textit{部分标记}设置下,结果是五折交叉验证的平均值,±后面的数字表示标准差。在Additional设置下,箭头前面的数字表示有监督基线。†:使用带标签/不带标签的批次大小8/32,*表示32/32,其余结果使用批次大小8/8。 粗体表示最佳结果,而下划线表示次佳结果。

在这里插入图片描述

在COCO数据集上使用FCOS进行的实验结果。在这个设置中不使用PLM。

在这里插入图片描述

关于 VOC Additional 设置的实验结果。

在这里插入图片描述

关于 VOC Mixture 设置的实验结果。

  • 消融实验

在这里插入图片描述

各组成部分的分析。MST 表示从混合尺度特征金字塔生成伪标签,PLM 表示潜在标签挖掘策略

在这里插入图片描述

与其他多视图方法的比较。

SCR表示SED中的尺度一致性正则化。MSIL表示PseCo中的多视图尺度不变学习。MST ‡表示随机丢弃大尺度路径和混合尺度的学生网络损失中的一个,以保持与其他多尺度方法相当的训练时间

在这里插入图片描述

特征融合方法的比较。

“CONV-ADD”表示采用两个3x3卷积层对于常规尺度和下采样尺度的特征进行对齐,然后进行逐元素相加,“CAT-CONV”表示按通道连接后再进行卷积以减少通道数。

在这里插入图片描述

使用不同特征尺度进行测试的模型性能

FPS:检测器每秒能处理图片的张数

在这里插入图片描述

所提出的MixTeacher的不同超参数的比较。

  • 可视化

在这里插入图片描述

MixTeacher中组件的定性可视化。(a) 从规则比例和混合比例特征棱锥体生成的伪标签的比较。(b) 不同得分阈值下伪标签的比较以及我们有希望的标签挖掘结果。绿色方框表示真阳性。红色方框突出显示假阳性,橙色方框表示假阴性。此外,挖掘的标签会用一个青色框高亮显示。

总结

  • conclusion

在这项工作中,我们深入研究了半监督对象检测中的尺度变化问题,并通过引入混合尺度教师来改进伪标签的生成和尺度不变学习,提出了一种新的框架。此外,得益于混合尺度特征的更好预测,我们建议挖掘伪标签,以提高跨尺度预测的分数。在各种半监督设置下对MS COCO和Pascal VOC基准进行的大量实验表明,我们的方法实现了最先进的性能。虽然我们已经展示了MixTeacher的优越性,但该方法是建立在一个旧的时尚检测器上的,具有最简单的FPN和原始的标签分配策略。SSOD中的规模变化问题是否可以用更先进的FPN架构或标签分配方法来解决尚不清楚,这是一项有趣的未来工作


  • 补充材料

在这里插入图片描述

不同设置的培训设置摘要。

在这里插入图片描述

不同特征金字塔中图层的EigenCAM可视化。γ=0.18使P×6与P−5更相似。

在这里插入图片描述

不同数据集和不同设置的训练设置摘要。我们遵循Soft Teacher[40]、STAC[35]和FixMatch[34]的实践,采用不同的超参数进行标记数据扩充和未标记强弱扩充。

在这里插入图片描述

COCO部分标记设置下模型收敛速度的比较。(a) 将MixTeacher与Soft Teacher[40]在10%的标签比例下进行比较。(b) 将MixTeacher与PseCo[17]在1%的标签比例下进行比较。(c) 在10%的标记比率下,将MixTeacher与MixTexer RD进行比较,该比率在每次迭代中从常规尺度和混合尺度中随机丢弃未标记图像的路径。在图例中,括号中的数字表示最终mAP。根据教师模式评估绩效。

在这里插入图片描述

训练过程中伪标签质量的比较。(a) 将MixTeacher与Soft Teacher[40]在10%的标签比例下进行比较。(b) 比较MixTeacher在不同条件下的伪标签。IoU与gt重叠大于0.5的伪标签被视为正样本

在这里插入图片描述

在COCO基准上与最先进的方法进行比较。报道了val2017集合上的AP50:95。在“部分标记”设置下,结果是所有五次折叠的平均值,±后面的数字表示标准偏差。在附加设置下,箭头前面的数字表示监督的基线。还报告了在每次迭代中使用的未标记图像的视图。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/619375.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从零开始学GeoServer源码十四(GeoServer Cloud微服务版本初体验)

目录 快速导航前言1.GeoServer Cloud 介绍2.环境准备3.Win10 Win11安装Docker、JDK、IDEA4.安装GeoServer Cloud4.1 获取docker-compose.yml4.2 拉取镜像4.3 启动4.4 访问 5.注意事项5.1 JDK冲突问题5.2 GeoServer Cloud Config 版本问题5.3 GeoServer Cloud WebUI 404问题 6.总…

点亮一颗 LED: 单片机 ch32v003 (RISC-V) 使用 rust 编写固件

首发日期 2024-04-09, 以下为原文内容: 使用 rust 编写单片机的程序 ? 很新, 但没问题. 使用 RISC-V CPU 的单片机 (比如 ch32v003) ? 也没问题. 同时使用 ? 哦嚯, 问题出现了 !! ch32v003 是一款使用 rv32ec 指令集的国产单片机, 很便宜 (某宝零卖只要 0.4 元一个, 在同档…

深入解析Tomcat的工作流程

tomcat解析 Tomcat是一个广泛使用的开源Servlet容器,用于托管Java Web应用程序。理解Tomcat的工作流程对于开发人员和系统管理员来说是非常重要的。本文将深入探讨Tomcat的工作原理,包括请求处理、线程池管理、类加载、以及与Web服务器之间的通信。 ###…

地球上的七大洲介绍

地球上的七大洲示意图: 1. 亚洲(Asia):世界上最大的洲,面积约为44579000平方公里。亚洲地域辽阔,包括从北极圈到赤道的各种气候和地形。它拥有世界上最多的人口,也是世界上一些最古老文明的发源…

解决 Docker 容器服务连接不上 Redis 服务问题

👨🏻‍💻 热爱摄影的程序员 👨🏻‍🎨 喜欢编码的设计师 🧕🏻 擅长设计的剪辑师 🧑🏻‍🏫 一位高冷无情的全栈工程师 欢迎分享 / 收藏 / 赞 / 在看…

基于深度学习的花卉检测系统(含PyQt界面)

基于深度学习的花卉检测系统(含PyQt界面) 前言一、数据集1.1 数据集介绍1.2 数据预处理 二、模型搭建三、训练与测试3.1 模型训练3.2 模型测试 四、PyQt界面实现参考资料 前言 本项目是基于swin_transformer深度学习网络模型的花卉检测系统,…

简历上写熟悉Linux下常用命令?直接寄

大家写简历技术栈时,都觉得越多越好,其中一条,熟悉Linux下常用命令?其实开发中Linux不是必备考点,除了运维,真正用的多的仅仅cd ls mkdir等,但当面试官问到上面命令时,是不是就傻眼了…

Linux三剑客-sed、awk、egrep(上)

一、知识梗概 二、正则表达式 定义:正则表达式是一种强大的文本处理工具,用于在文本中搜索符合特定模式的字符串。它由一系列特殊字符和普通字符组成,可以定义复杂的搜索模式。正则表达式被广泛应用于各种编程语言和文本处理工具中。 简单来…

【Docker】docker原理及使用-1

Docker目录 1️⃣概念2️⃣使用容器的好处2️⃣docker和普通软件启动方式的区别2️⃣docker和传统虚拟机的区别 1️⃣下载安装2️⃣安装步骤 1️⃣必须要掌握的核心概念1️⃣命令2️⃣例子2️⃣练习题目2️⃣进入一下python环境(简洁) 1️⃣解释一下 redis1️⃣docker底层隔离机…

C语言 | Leetcode C语言题解之第30题串联所有单词的子串

题目: 题解: typedef struct {char key[32];int val;UT_hash_handle hh; } HashItem;int* findSubstring(char * s, char ** words, int wordsSize, int* returnSize){ int m wordsSize, n strlen(words[0]), ls strlen(s);int *res (int *)mall…

卫星影像联合无人机实现农业保险全生命周期监管监测

随着科技的进步,农业保险监管系统的发展日新月异。特别是近年来,随着卫星技术与无人机技术的结合,为农业保险监管系统带来了前所未有的革新。本文将深入探讨如何利用卫星与无人机方案构建高效的农业保险监管系统,并结合实例进行说…

机器学习-09-图像处理01-理论

总结 本系列是机器学习课程的系列课程,主要介绍机器学习中图像处理技术。 参考 02图像知识 色彩基础知识整理-色相、饱和度、明度、色调 图像特征提取(VGG和Resnet特征提取卷积过程详解) Python图像处理入门 【人工智能】PythonOpenCV…