Deep Visual Tracking: Review and Experimental comparison

论文链接：Li P, Wang D, Wang L, et al. Deep visual tracking: Review and experimental comparison[J]. Pattern Recognition, 2018, 76: 323-338.

主要内容

卢教授的一篇文章，大连理工大学的卢湖川教授也是跟踪领域中的一位厉害人物，曾经在ICCV发表的FCNT产生了很大的反响。这是一篇有关深度网络跟踪算法的综述论文，主要从点评和实验比较两个方面来说明。基于深度网络的跟踪算法主要依据网络的结构、功能、训练来分为三类，并在OTB-100、TC-128、VOT-2015三个数据集上比较性能。论文中总结出一些结论：

使用卷积神经网络(CNN)确实能有效提升跟踪性能
使用深度网络做前景和背景的二分类会有较好的性能，而用作模板匹配会有较高的效率
深度网络所提取的特征相较于人工特征会有更好的性能
不同的卷积层所提取的特征拥有着不同的特性，若对其有效组合会得到更鲁棒的跟踪算法
端到端的网络模式相较于仅用来提取特征的模式性能更好
最适宜的预训练方法是在视频数据集上进行，在跟踪阶段进行微调

这篇文章主要注重这几个问题：

当前这些基于深度网络的跟踪算法有什么联系和区别？
为什么深度网络适合目标跟踪？
如何让深度网络对目标跟踪产生更好的影响？未来发展此领域的方向是什么？

这篇文章在实验比较内容中一共对比了16种基于深度网络的跟踪算法和6种baseline方法。

目标跟踪简介

目标跟踪研究的内容就是在实际场景中使用算法跟踪从第一帧就标定好的目标。宽泛地讲，目标跟踪主要包含两种主要的元素：1. 描述物体当前状态并预测物体未来状态的运动模型，例如卡尔曼滤波器和粒子滤波器；2. 描述目标外观信息和确定预测目标的观察模型。一些研究者表明观察模型比运动模型更加重要。

从观察模型的角度来说，跟踪算法经常被分为生成式方法和判别式方法。生成式方法聚焦于找寻最相似于目标的区域位置；而判别式方法将跟踪问题考虑为一个分类问题，主要聚焦于把目标前景和背景分开。

网络结构

使用CNN模型

使用CNN模型去判别前景和背景(CNN-C)
在VGGNet中，卷积层中最后一层的输出往往包含语义信息和表征信息，使其对于图像的外观变化非常鲁棒，但空间分辨率很低，无法定位到目标的准确位置。相反，前面的卷积层就可以很精准的定位到目标位置，但却不适用于外观变化。那么把不同的层和相关滤波器结合就是一种很好的方法，结构如图。

使用CNN模型去匹配目标模板(CNN-M)

此类结构主要使用CNN模型去学习一个有效的匹配函数，从候选目标中匹配到准确的目标模板来实现跟踪任务，如Siamese网络，从候选区域中匹配目标，得到特征匹配图，结构如图。

使用RNN模型

利用空间结构性和时间有序性，RNN网络的特征能够较好的攻克遮挡难关，且RNN和CNN相结合会更加提升特征的鲁棒性，利用LSTM的时间关联性能够在跟踪过程中形成长时间记忆。

使用其他网络模型

主要是自编码器的应用，使用浅层特征和深层特征相结合的方法，适用于外观变化的情况。具体内容请查看论文中的3.1.3节。

网络功能

仅使用深度网络来提取特征的跟踪算法(FEN)

从深度网络中提取某一层的特征(FEN-SL)
从深度网络中提取多层的特征(FEN-ML)

端到端的深度网络跟踪算法(EEN)

利用粒子滤波器或者滑动窗口策略产生一系列的候选目标，之后产生每个候选目标的得分数从而确定目标位置(EEN-S)
使用深度网络去生成一个置信图(confidence map)、概率图(probablyility map)、响应图(response map)、热度图(heat map)，之后使用其他的方法去定位目标(EEN-M)
使用深度网络直接产生bounding box位置(EEN-B)

网络训练

不用预训练+在线学习(NP-OL)
图像预训练+非在线学习(主要使用VGGNet)(IP-NOL)
图像预训练+在线学习(IP-OL)
视频预训练+非在线学习：卷积层目的是提取深层特征，全连接层目的是学习如何区分目标模板和候选样本，这是一个复杂的特征比较学习过程。(VP-NOL)
视频预训练+在线学习(MDNet)：如图所示。(VP-OL)

此外，深度增强学习（DRL）也在目标跟踪领域中扮演着重要的角色，它很适合缺少训练标签或者之后才能活着标签的任务。

分析部分

分析网络结构：CNN模型表现出很好的性能，但却无法对连续的帧进行建模，导致它无法有效利用跟踪任务的时间信息。而RNN却可以描述时间或空间的关系，在这方面的研究还很欠缺。
分析网络功能：端到端的跟踪算法比仅用深度网络提特征的算法好，表明深度网络在分类和匹配的功能上比传统方法更好。
分析网络训练：离线预训练可以减少额外的计算量和空间损耗，而在线fine-tune可以时刻改变模板和性能。使用图像进行预训练可以提升性能，而使用视频进行预训练更符合跟踪任务的特性，可能会达到更好的效果。
分析跟踪速度：跟踪任务的图像分辨率普遍比分类任务低，如果采用深层网络可能会丢失很多信息。在模板更新方面，每隔几帧更新模板的方法和使用一个通道网络去进行模板匹配而不是在线更新分类器的方法，两者都取得了很好的效果。

欠缺的研究方向

深度特征包含很多冗余性，限制了速度和性能的提升，降低深度特征的冗余度，提升跟踪速率。
很多方法都是使用VGG网络，发展更多有效的网络很急迫。
由于跟踪任务缺少训练数据，那么无监督或弱监督学习就比较适合。增强学习和生成对抗网络也可以用来产生更多的训练样本来提升跟踪性能。
模型的转移能力在跟踪任务中很重要，one-shot learning也是一个新的方向。
提升算法的有效性和解决训练样本的缺失性会是一个新的方向。