Paper Reading: MixTeacher：半监督目标检测中利用混合尺度教师挖掘有前景的标签-编程知识

在这里插入图片描述

简介

题目：《MixTeacher: Mining Promising Labels with Mixed Scale Teacher for Semi-Supervised Object Detection》， CVPR 2023

日期：2023.3.16

单位：腾讯，上海交通大学，浙江大学，荣旗工业科技公司

论文地址：http://arxiv.org/abs/2303.09061

GitHub：https://github.com/lliuz/MixTeacher

作者

在这里插入图片描述

一作的研究领域方向不是很固定，有关于模型架构研究、重识别、图像生成、目标检测、图像分割、无监督、自监督、半监督都有涉及，我看了一下其为一二作的文章，主要是自监督无监督还有最近的半监督，而且有很多是关于标签或是伪标签的优化方法

其他作者
通讯作者
摘要

对象实例之间的比例变化仍然是对象检测任务中的一个关键挑战。尽管现代检测模型取得了显著进展，但这一挑战在半监督案件中尤为明显。虽然现有的半监督对象检测方法依赖于严格的条件来从网络预测中过滤出高质量的伪标签，但我们观察到，具有极端尺度的对象往往置信度较低，导致对这些对象缺乏积极的监督。在本文中，我们提出了一种新的框架，通过引入混合规模教师来改进伪标签生成和规模不变学习，来解决规模变化问题。此外，我们建议使用跨尺度预测的分数提升来挖掘伪标签，这得益于混合尺度特征的更好预测。我们在各种半监督设置下对MS COCO和PASCAL VOC基准进行的大量实验表明，我们的方法实现了最先进的性能

目标/动机

固有问题：目标检测中不同目标实例之间存在较大的尺度变化，半监督目标检测中尤为明显

现有解决方案：现有的半监督物体检测方法依赖于严格的条件来筛选网络预测中的高质量伪标签

现有方法的不足：尺度极端的物体往往具有较低的置信度，导致这些物体缺乏正向监督

新提出的解决方案：

引入混合尺度教师来解决尺度变化问题
引入一个新的指标来挖掘潜在的高质量伪标签

为了保证高精度，大多数现有的半监督对象检测方法采用严格条件（如score>0.9）来过滤得到高置信度的伪标签。产生的问题：对于那些极端尺度的目标，很多低置信度的对象被错误地分配为背景。

表格是关于图像输入尺度对不同大小目标的检测性能的影响：常规尺度1x的输入在整体指标上具有明显优势；缩小尺度0.5x的图像对于大目标具有优势

在这里插入图片描述

输入规则1×尺度和0.5×下采样尺度图像的检测结果。我们绘制了COCO val2017中（a）所有对象和（b）大型对象在不同得分阈值下的精确度和召回率，这些对象具有相同的模型但不同的输入量表。（c）中给出了两个未标记图像的例子。1x输入在总体度量方面具有明显的优势，但下采样图像更适合大型对象。

现有工作已经证明，结合未标记图像的额外下采样视图，并在标签级别(SED)或特征级别(PseCo)上使用一致性约束对网络进行正则化，可以显著提高半监督对象检测的性能

**现有的解决方案：**引入一个额外的缩小尺度（0.5x）视图，以获得模型预测结果的尺度不变性。

SED提出从常规尺度到缩小尺度对目标的分类进行预测蒸馏，约束两个尺度上所有proposals的定位的一致性。
PseCo采用从常规尺度生成的相同伪标签作为两个尺度上的标签。

这些方法主要关注跨尺度预测的一致性，间接改善了模型的性能。

**存在的问题：**高度依赖在常规尺度下教师网络中生成的伪标签，这些方法仍然存在由不恰当尺度引起的错误负样本问题。

在这里插入图片描述

多尺度学习在半监督对象检测方法中的比较。先前的方法[10，17]仅侧重于鼓励对具有不同尺度的输入图像进行一致的预测。所提出的MixTeacher明确引入了混合尺度特征金字塔，以自适应融合来自适当尺度的特征，从而能够检测不同大小的对象。混合尺度特征生成更准确的伪标签，并有助于挖掘有前景的标签，作为一个插件，可以在训练后丢弃。

工作重点

本文提出了一种半监督目标检测框架MixTeacher，该框架利用混合尺度特征金字塔生成高质量的伪标签。

本文提出了一种挖掘伪标签的方法，该方法利用预测的改进作为挖掘有潜力的伪标签的指标。

在各种半监督设置下，本文的方法在MS COCO和PASCAL VOC基准中获得了最先进的性能。

方法

注意：以下大量图片来源于知乎博主的PR，PR地址：https://zhuanlan.zhihu.com/p/649988041

在这里插入图片描述

在训练过程中，该模型首先使用特征提取模块f(θ_f)分别为规则尺度1x和下采样尺度0.5x构建两个特征金字塔。接下来，通过特征融合模块g(θ_g)建立一个额外的混合尺度特征金字塔。学生模型在三个尺度上进行训练，共享检测头h(θ_h)将教师模型混合尺度生成的伪盒作为监督。此外，使用PLM策略挖掘具有低置信度分数的有前景的标签。教师中的权~θ由学生中的权重θ的EMA更新。在测试中，使用了具有原始架构和常规输入规模的模型。

在这里插入图片描述

请注意，混合尺度金字塔中的第一级是从常规视图直接复制而来，而降采样视图中不存在相应级别

在这里插入图片描述

训练

在训练过程中，该模型首先分别构建了规则尺度下的特征金字塔和基于特征提取模块的下采样尺度下的特征金字塔。然后，利用特征融合模块，构建混合尺度特征金字塔。学生模型在三个尺度上进行训练，共享检测头，以混合尺度的教师模型生成的pseudo boxes作为监督。
在这里插入图片描述

实验

与SOTA比较

指标为在val2017集上的AP50:95。在\textit{部分标记}设置下，结果是五折交叉验证的平均值，±后面的数字表示标准差。在Additional设置下，箭头前面的数字表示有监督基线。†：使用带标签/不带标签的批次大小8/32，*表示32/32，其余结果使用批次大小8/8。粗体表示最佳结果，而下划线表示次佳结果。

在这里插入图片描述

在COCO数据集上使用FCOS进行的实验结果。在这个设置中不使用PLM。

在这里插入图片描述

关于 VOC Additional 设置的实验结果。

在这里插入图片描述

关于 VOC Mixture 设置的实验结果。

消融实验

在这里插入图片描述

各组成部分的分析。MST 表示从混合尺度特征金字塔生成伪标签，PLM 表示潜在标签挖掘策略

在这里插入图片描述

与其他多视图方法的比较。

SCR表示SED中的尺度一致性正则化。MSIL表示PseCo中的多视图尺度不变学习。MST ‡表示随机丢弃大尺度路径和混合尺度的学生网络损失中的一个，以保持与其他多尺度方法相当的训练时间

在这里插入图片描述

特征融合方法的比较。

“CONV-ADD”表示采用两个3x3卷积层对于常规尺度和下采样尺度的特征进行对齐，然后进行逐元素相加，“CAT-CONV”表示按通道连接后再进行卷积以减少通道数。

在这里插入图片描述

使用不同特征尺度进行测试的模型性能

FPS：检测器每秒能处理图片的张数

在这里插入图片描述

所提出的MixTeacher的不同超参数的比较。

可视化

在这里插入图片描述

MixTeacher中组件的定性可视化。（a）从规则比例和混合比例特征棱锥体生成的伪标签的比较。（b）不同得分阈值下伪标签的比较以及我们有希望的标签挖掘结果。绿色方框表示真阳性。红色方框突出显示假阳性，橙色方框表示假阴性。此外，挖掘的标签会用一个青色框高亮显示。

总结

conclusion

在这项工作中，我们深入研究了半监督对象检测中的尺度变化问题，并通过引入混合尺度教师来改进伪标签的生成和尺度不变学习，提出了一种新的框架。此外，得益于混合尺度特征的更好预测，我们建议挖掘伪标签，以提高跨尺度预测的分数。在各种半监督设置下对MS COCO和Pascal VOC基准进行的大量实验表明，我们的方法实现了最先进的性能。虽然我们已经展示了MixTeacher的优越性，但该方法是建立在一个旧的时尚检测器上的，具有最简单的FPN和原始的标签分配策略。SSOD中的规模变化问题是否可以用更先进的FPN架构或标签分配方法来解决尚不清楚，这是一项有趣的未来工作

补充材料

在这里插入图片描述

不同设置的培训设置摘要。

在这里插入图片描述

不同特征金字塔中图层的EigenCAM可视化。γ=0.18使P×6与P−5更相似。

在这里插入图片描述

不同数据集和不同设置的训练设置摘要。我们遵循Soft Teacher[40]、STAC[35]和FixMatch[34]的实践，采用不同的超参数进行标记数据扩充和未标记强弱扩充。

在这里插入图片描述

COCO部分标记设置下模型收敛速度的比较。（a）将MixTeacher与Soft Teacher[40]在10%的标签比例下进行比较。（b）将MixTeacher与PseCo[17]在1%的标签比例下进行比较。（c）在10%的标记比率下，将MixTeacher与MixTexer RD进行比较，该比率在每次迭代中从常规尺度和混合尺度中随机丢弃未标记图像的路径。在图例中，括号中的数字表示最终mAP。根据教师模式评估绩效。

在这里插入图片描述