组会系列 | TCTrack: 用于空中跟踪的时序信息框架-摩杜云开发者社区

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

组会系列 | TCTrack: 用于空中跟踪的时序信息框架_#计算机视觉#目标追踪

导读：在2022年的CVPR会议上，同济大学、商汤科技-南洋理工大学联合AI研究中心S-Lab等合作提出了一种基于时序信息的孪生网络框架，名为TCTrack：Temporal Contexts for Aerial Tracking。该框架旨在通过引入两个维度的时序信息来平衡速度和性能，以应对空中场景带来的挑战。

TCTrack通过特征维度和相似度图维度连续整合时序信息。在特征提取过程中，本文使用改进的Online TAdaConv在特征维度高效引入时序信息；而在特征图维度，本文使用了更加高效的时序信息策略，通过不断积累的时序信息修正特征图。最终，TCTrack不仅在未使用加速情况下在嵌入式系统上达到实时性的要求，还获得了与其他SOTA跟踪器相似的精度。

项目代码：https://github.com/vision4robotics/TCTrack

1.研究背景与动机：

目标跟踪是计算机视觉领域的基础任务之一。视觉追踪是计算机视觉中最基本的任务之一。由于无人机（UAV）具有卓越的机动性，基于追踪的应用正在经历快速发展，例如运动物体分析、地理勘测和视觉定位。（如图（a）所示）。然而，空中场景也带来了两类挑战：

高速和极高的飞行高度增加了运动模糊、频繁遮挡、微小物体等挑战（如图（b）所示）；

由于需要保证一定的续航时间，空中载具无法携带高性能计算设备，从而限制了高时间成本的算法。因此，开发一种鲁棒且高效的适用于空中跟踪条件的方法仍然是一项具有挑战性的工作。

组会系列 | TCTrack: 用于空中跟踪的时序信息框架_#计算机视觉#目标追踪_02

大多数现有的跟踪器采用标准的跟踪-检测框架，并独立地对每个帧进行检测。在这些跟踪器中，基于判别性相关滤波器（DCF）的方法因在傅里叶域中的操作所带来的高效性和低资源需求而在航空平台上广泛应用。

然而，当存在快速运动和严重外观变化时，这些跟踪器会遇到困难。最近，Siamese-based网络已经成为了精确、鲁棒跟踪的强大框架。其效率在中也被优化，以便在航空平台上实时部署Siamese-based跟踪器。

然而，这些框架忽略了连续帧之间内在存在的强相关性，即时间信息，使得这些方法难以感知目标物体的运动信息。

因此，在目标经历不同复杂条件如大运动和遮挡引起的严重外观变化时，这些跟踪器更容易失败。这已经引发了关于如何利用时间信息进行视觉跟踪的最新研究。对于基于DCF的方法，在时间维度上响应图的变化被惩罚，这通过先前的响应图来指导当前的响应图。

在本文的重点——基于Siamese的网络中，大多数工作通过动态模板引入时间信息，通过连接、加权求和、图网络、Transformer或记忆网络在当前模板中集成历史对象外观。尽管它们在将时间信息引入视觉跟踪任务方面取得了成功，但大多数探索仅限于整个跟踪流水线中的单个阶段，即模板特征。

2.贡献

这在这项工作中，我们提出了一个综合的框架来利用孪生网络中的时间上下文，我们称之为TCTrack。

组会系列 | TCTrack: 用于空中跟踪的时序信息框架_#计算机视觉#目标追踪_03

如图1所示，TCTrack在特征和相似性映射两个级别上引入了时间上下文。在特征级别上，我们提出了一个在线的时间自适应卷积(TAdaConv)，其中特征是通过动态校准前一帧而提取的卷积权重。基于这个操作，我们将标准的卷积网络转化为时间自适应网络(TAdaCNN)。由于在线TAdaConv中的校准是基于前一帧中特征的全局描述符，TAdaCNN只会引入微不足道的帧率下降，但显著提高了跟踪性能。

在相似性映射级别上，我们提出了一种自适应时间Transformer(ATTrans)，根据时间信息来优化相似性映射。具体来说，ATTrans采用编码器-解码器结构，其中：

编码器通过将前一个先验与当前相似性映射集成来生成当前时间步的时间先验知识
解码器以自适应的方式根据生成的时间先验知识来细化相似性映射。

时间先验知识是指在进行时间序列数据分析时，对于历史数据已经发生的事件或行为所取得的知识和经验。这些知识可以用于帮助预测未来事件或行为的发生和演变。

ATTrans是内存高效的，并且适合边缘平台，因为我们在每帧中不断更新时间先验知识。

总的来说，我们的方法提供了一个全面的时间编码框架来处理孪生网络中的时间上下文。对TCTrack的广泛评估展示了所提出的框架的有效性和效率。与51个最先进的跟踪器相比，在四个标准航空跟踪基准测试中观察到了竞争力的准确性和精度，TCTrack在PC上具有高达125.6 FPS的帧率。在NVIDIA Jetson AGX Xavier上的实际部署表明，TCTrack在航空跟踪方面具有令人印象深刻的稳定性和鲁棒性，以超过27 FPS的帧率运行。

3.方法

3.1 TCTrack Pipeline

组会系列 | TCTrack: 用于空中跟踪的时序信息框架_#计算机视觉#目标追踪_04

如图2所示。提出的框架从两个新的角度考虑时间上下文：

（1）在线特征提取，我们通过TAdaCNN时间上下文纳入考虑。

（2）相似度图细化，我们使用一种新型的AT-Trans来编码时间知识，然后根据时间先验知识精炼相似度图。

3.2 Feature extraction with online TAdaConv

动机：

在目标跟踪的过程中，有着丰富的时序信息可供利用。然而，过去的跟踪器在特征提取的过程中，每一帧图像都是通过同样的卷积网络提取特征，缺乏对时序信息的建模利用。因此，我们希望引入时序信息以提取更加丰富的特征。但是，存储大量的时序信息会导致内存占用和计算量的增加。因此，我们最终通过在线生成时序调制向量，并与预训练的卷积核进行运算，以减少相应的计算量。

方法：

组会系列 | TCTrack: 用于空中跟踪的时序信息框架_#计算机视觉#目标追踪_05

为了方便表达，我们定义第t帧的图像为，经过卷积计算后的结果为。那么对于标准卷积来说，计算结果可以表示为：

其中，是训练得到的可学习参数，在跟踪过程中对于不同帧并不会改变。

在视频理解中，TAdaConv被提出来以解决视频动作理解中的时许建模问题，而Online TAdaConv是在TAdaConv的基础上改进，以便可以应用到目标跟踪领域。为了提高运算速度我们首先通过全局平均池化（GAP）减少输入特征的大小即为了避免调制向量对网络性能产生负影响，1D conv的权重及偏差被初始化为0，即在未训练时。（这一块建议阅读原文，说实话我没看懂α这个参数是干嘛的）另外当t≤L-1时，由于没有足够的历史信息，本文使用第一帧信息进行填充。随后将历史信息与当前信息整合后，在时序维度利用卷积计算得到调制向量:

组会系列 | TCTrack: 用于空中跟踪的时序信息框架_#计算机视觉#目标追踪_06

组会系列 | TCTrack: 用于空中跟踪的时序信息框架_#计算机视觉#目标追踪_07

组会系列 | TCTrack: 用于空中跟踪的时序信息框架_#计算机视觉#目标追踪_08

因此，最终Online TAdaConv输出结果为：

组会系列 | TCTrack: 用于空中跟踪的时序信息框架_#计算机视觉#目标追踪_09

综上所述，Online TAdaConv是跟踪领域第一次尝试在特征提取维度引入时序信息。并且并未引入过多计算量而导致计算延时过长。

3.2 Similarity Refinement with AT-Trans

动机：

先前的目标跟踪方法已经尝试引入时序信息，比如显式的模板更新、基于图的跟踪和时序记忆的整合等。然而，它们实现时序信息融合的方式大多是针对特征维度进行间断式融合，通过保存一定量的历史信息与当前帧进行融合。

这种方式虽然整合了大量的时序信息，但并不适用于计算量受限的空中计算平台。因此，本文旨在提出一种计算量更小、效率更高的引入时序信息的方式。

本文首次尝试将经过互相关操作后的特征图作为提取时序知识的基体。相对于特征维度的信息，特征图更直接地反映了目标的尺度等信息，因此更加丰富。

我们认为在跟踪过程中所有信息都是可以利用的，即使物体处于被遮挡或模糊的状态，因为运动具有连续性。但是，被环境干扰的特征图需要进行一定的过滤才能有效发挥连续时序信息的优势。

基于以上判断，我们设计了固定大小的时序先验知识，并通过不断提取旧知识添加到新知识中，并进行信息过滤，以得到当前帧的特征图。这一策略既利用了时序信息，又避免了超参数的引入，并限制了内存大小。因此，我们的框架在空中计算平台上具备了更高的计算效率和更小的内存占用。

方法：

作为Transformer的最基本组成，多头注意力公式如下所示，在本文中我们使用了6个分头：

组会系列 | TCTrack: 用于空中跟踪的时序信息框架_#计算机视觉#目标追踪_10

为了表述更加清楚，我们将t-1帧的时序知识定义为，当前帧（t帧）为，编码器使用 作为Query，使用 作为Value和Key，而解码器则反其道而行之。因为这实质上更加强调当前相似性图。这是合理的，因为比起以前的信息，更接近的时间信息对于更准确地表述当前对象的特征更有价值。因此，我们通过以下方法获得t时刻的堆叠多头注意力层的输出可表示为：

组会系列 | TCTrack: 用于空中跟踪的时序信息框架_#计算机视觉#目标追踪_11

由于空中追踪可能经常遇到由于运动模糊或遮挡引起的不太有用的上下文，如果我们在传递完整的时间信息而不进行任何过滤，就可能包含一些不需要的上下文。

为了消除不需要的信息，通过将前馈网络FFN附加到通过全局平均池化GAP获得的全局描述符，再生成一个时间信息过滤器。通过以下方法获得过滤后信息为：

组会系列 | TCTrack: 用于空中跟踪的时序信息框架_#计算机视觉#目标追踪_12

组会系列 | TCTrack: 用于空中跟踪的时序信息框架_#计算机视觉#目标追踪_13

其中代表卷积层。

最终当前帧（t帧）的时序知识，及可表示为:

组会系列 | TCTrack: 用于空中跟踪的时序信息框架_#计算机视觉#目标追踪_14

组会系列 | TCTrack: 用于空中跟踪的时序信息框架_#计算机视觉#目标追踪_15

组会系列 | TCTrack: 用于空中跟踪的时序信息框架_#计算机视觉#目标追踪_16

对于t=1时，考虑到不同物体不同场景具有不同特性，我们使用独立的卷积进行初始化操作而不是使用随机生成的可学习参数。

4.Experiments

4.1 Similarity Maps

下图为可视效果的对比，可以看出我们的时序建模方式在应对多种空中场景时表现出了足够强的鲁棒性，最终使得跟踪器在多种挑战中得到了性能的提升。

组会系列 | TCTrack: 用于空中跟踪的时序信息框架_#计算机视觉#目标追踪_17

4.2 Aerial Tracking Benchmarks

为了更好地评估我们方法与SOTA方法的性能，我们将分成两类进行评估。首先针对轻型跟踪器比较，我们的方法在四个公开数据集均取得良好效果。

组会系列 | TCTrack: 用于空中跟踪的时序信息框架_#计算机视觉#目标追踪_18

组会系列 | TCTrack: 用于空中跟踪的时序信息框架_#计算机视觉#目标追踪_19

4.3 Ablation study

同时我们也进行消融实验的对比，主要分析了关于训练方式（是否采用时序训练）、初始化方式、时序信息基体选择、及TAdaConv信息窗口大小。

组会系列 | TCTrack: 用于空中跟踪的时序信息框架_#计算机视觉#目标追踪_20

SF/MF代表了单帧训练（传统基于检测的跟踪方式）/多帧训练（时序训练），CI/RI代表了基于卷积的初始化/随机初始化，Query列分析了从提取时序知识带来的差别。TIF代表了时序信息过滤器。消融实验证明了：

1. 仅仅使用时序训练方式而不使用TIF会由于引入噪声而带来负增长，并且TIF对于传统基于检测的跟踪方法依然有信息过滤作用；

2. 对不同场景不同物体利用第一帧进行初始化的方式相较于随机可学习参数效果更好；

3. 提取t-1帧信息融入当前帧是更好的选择。

组会系列 | TCTrack: 用于空中跟踪的时序信息框架_#计算机视觉#目标追踪_21

而在针对TAdaConv的分析中，我们选择了L=3作为时序信息的窗口。

4.4 Comparison with Deep Trackers

与SOTA跟踪器相比，我们的方法保持了相似精度的同时，速度达到其2倍以上。

组会系列 | TCTrack: 用于空中跟踪的时序信息框架_#计算机视觉#目标追踪_22

4.5 Real-world Tests

最后为了验证我们的跟踪方法在实际空中条件下的跟踪效果，我们进行了实机测试。我们的跟踪器在真实空中场景下依然保持了高精度和鲁棒性并达到了实时性的要求。

组会系列 | TCTrack: 用于空中跟踪的时序信息框架_#计算机视觉#目标追踪_23

5.Conclusion

在本文中，我们为目标跟踪提出了一种新的高效时序框架。它一方面首次在特征提取（特征维度）高效地引入了时序信息，另一方面通过连续的知识整合避免了超参数及内存占用量的增加。并且，多项消融实验和同大量SOTA跟踪器对比中，我们证明了该框架的优秀的速度及鲁棒性。最后，通过实际机载部署实验有力证明了我们方法的有效性。我们希望这项工作可以为时序目标跟踪提供新的研究思路。