（论文阅读23/100）Hierarchical Convolutional Features for Visual Tracking-编程知识

（论文阅读23/100）Hierarchical Convolutional Features for Visual Tracking

文献阅读笔记（分层卷积特征）
简介	题目	Hierarchical Convolutional Features for Visual Tracking
	作者	Chao Ma, Jia-Bin Huang, Xiaokang Yang and Ming-Hsuan Yang
	原文链接	arxiv.org/pdf/1707.03816.pdf
	关键词	Hierarchical convolution、visual tracking
	研究问题	Tracking 难点：变形、突变运动、背景杂乱、遮挡。较早的早期卷积层tracking：更精准的定位，但是对物体的改变并不稳定。不能捕获语义信息。所以使用多层CNN特征进行视觉跟踪的推理是非常重要的，因为语义对显著的外观变化具有鲁棒性，而空间细节对于精确定位是有效的。问题1：使用神经网络作为在线分类器，其中只使用最后一层的输出来表示目标。对于高层视觉识别问题，使用来自最后一层的特征是有效的，因为它们与类别级别的语义最密切相关，并且对干扰变量(如类内变化和精确位置)最具有不变性。然而，视觉跟踪的目的是精确定位目标，而不是推断其语义类别。问题2：训练样本的提取。训练一个鲁棒的分类器需要大量的正负样本，这在视觉跟踪中是不可能的。此外，由于在目标附近采样，正负样本高度相关，因此在确定决策边界时存在模糊性。较早层的特征保留了更高的空间分辨率，以实现精确的定位，其低层视觉信息类似于Gabor滤波器的响应图。另一方面，后一层的特征捕获了更多的语义信息和更少的细粒度空间细节。
	研究方法	(i)使用CNNs分层层的特征而不是仅使用最后一层来表示目标。将卷积层的层次结构解释为图像金字塔表示的非线性对应，并利用这些多层次的抽象来进行视觉跟踪。早期特征缓解漂移问题（drifting）：为了精准定位。 (ii)在每个CNN层上学习自适应相关滤波器，无需采样。在每个卷积层上自适应地学习相关滤波器来对目标外观进行编码。分层推断每一层的最大响应来定位目标。缓解采样模糊问题。我们采用由粗到精的方式，利用多级相关响应图来推断目标位置。 (iii)缓解采样二义性：将所有偏移版本的特征作为训练样本，回归到具有较小空间带宽的高斯函数，从而缓解训练二元判别分类器的采样二义性。本文算法的主要步骤。给定一幅图像，首先裁剪以前一帧估计位置为中心的搜索窗口。使用第三，第四和第五卷积层作为我们的目标表示。然后，由i索引的每一层与学习到的线性相关滤波器w ( i )卷积生成响应图，其最大值的位置表示估计的目标位置。通过搜索多层响应图，以由粗到精的方式推断目标位置。低的空间分辨率不足以对目标进行准确定位。通过双线性插值将每个特征图调整到固定的较大尺寸来缓解这一问题。不使用池化层的输出，因为希望在每个卷积层上保留更多的空间分辨率。
	研究结论	在准确性和鲁棒性方面优于现有的先进方法。
	额外知识	optical flow：光流的概念是指在连续的两帧图像中由于图像中的物体移动或者摄像头的移动导致的图像中目标像素的移动。光流法（optical flow methods） - 知乎 (zhihu.com) conv3 - 4层更有利于精确定位。 conv5 - 4层的空间分辨率较低。