文献阅读笔记(sel - CNN) | ||
简介 | 题目 | Visual Tracking with Fully Convolutional Networks |
作者 | Lijun Wang, Wanli Ouyang, Xiaogang Wang, and Huchuan Lu | |
原文链接 | http://202.118.75.4/lu/Paper/ICCV2015/iccv15_lijun.pdf 【DeepLearning】简述Visual Tracking with Fully Convolutional Networks-CSDN博客 | |
关键词 | Visual Tracking、fcn、sel - CNN | |
研究问题 |
顶层编码更抽象和更高层的语义特征,充当类别检测器,能够很好地区分不同类别的物体,对形变和遮挡具有很强的鲁棒性。 而下层携带更多的判别信息,能更好地将目标与外观相似的干扰目标分离,但是对外观的剧烈变化鲁棒性较差。
| |
研究方法 |
we propose to automatically switch the usage of these two layers during tracking depending on the occurrence of distracters.
A feature map selection method is developed to remove noisy and irrelevant feature maps, which can reduce computation redundancy and improve tracking accuracy.
through proper feature selection, the noisy feature maps not related to the representation of the target are cleared out and the remaining ones can more accurately highlight the target and suppress responses from background.
由13个卷积层和3个全连接层组成。 由于池化层和卷积层的存在,conv4 - 3和conv5 - 3层的感受野都非常大(分别为92 × 92和196 × 196像素)。 conv4 - 3层(第10层卷积层):捕获的特征对类内外观变化更加敏感,选择的特征图可以很好地将目标人物与其他非目标人物区分开。此外,不同的特征映射关注的对象部分也不同。 Conv5 - 3层(第13层卷积层):特征图编码了高层次的语义信息,能够更好地将人脸和非人脸物体区分开来。但它们在区分一个身份和另一个身份时的准确率低于conv4 - 3的特征图。 算法设置: sel - CNN: sel - CNN模型由一个dropout层和一个没有任何非线性变换的卷积层组成。以待选特征图( conv4-3或con5-3)为输入,预测目标热力图M,M是以真值目标位置为中心的二维高斯,方差与目标尺寸成正比。通过最小化预测的前景热图( M )与目标热图M之间的平方损失来训练模型。
为了避免在线更新引入的背景噪声,我们固定GNet,只在第一帧初始化后更新SNet。SNet的更新遵循两种不同的规则:自适应规则和判别规则,其目的分别是使SNet适应目标外观变化和提高对前景和背景的判别能力。根据自适应规则,我们每隔20帧使用间隔帧中最可信的跟踪结果微调SNet。基于判别规则,当检测到干扰项时,利用第一帧和当前帧的跟踪结果,通过最小化进一步更新SNet。
| |
研究结论 | 虽然CNN特征图的感受野1较大,但激活的特征图稀疏且局部化。激活的区域与语义对象的区域高度相关。 许多CNN特征图对于从背景中区分特定目标的任务是有噪声或不相关的。 | |
创新不足 | 在低分辨率(LR)的情况下:FCNT具有较高的失败率, 是因为,VGG网络是利用高分辨率的图片进行预训练的。 | |
额外知识 | 前景掩码:前景掩码是指在图像处理中,将前景和背景分离的一种技术。它是一种二进制图像,其中前景像素被标记为1,背景像素被标记为0。前景掩码可以用于图像分割、目标跟踪、背景建模等应用中。在OpenCV中,可以使用不同的算法来生成前景掩码,例如基于高斯混合模型(GMM)的背景减法算法、基于自适应混合高斯模型(MOG)的背景减法算法等。 |