国内或国外 期刊或论文

您当前的位置:发表学术论文网电子论文》 深度视觉目标跟踪进展综述> 正文

深度视觉目标跟踪进展综述

所属分类:电子论文 阅读次 时间:2021-06-22 10:31

本文摘要:摘要:视频目标跟踪是计算机视觉领域的一个重要研究课题。近年来,随着深度学习在视觉目标跟踪领域获得了巨大的成功,一系列优秀的深度跟踪算法涌现出来。在本篇论文中,我们回顾近年来深度目标跟踪领域的进展。首先,我们详细讨论了近十年来跟踪领域数据集

  摘要:视频目标跟踪是计算机视觉领域的一个重要研究课题。近年来,随着深度学习在视觉目标跟踪领域获得了巨大的成功,一系列优秀的深度跟踪算法涌现出来。在本篇论文中,我们回顾近年来深度目标跟踪领域的进展。首先,我们详细讨论了近十年来跟踪领域数据集的发展趋势,这些数据集不仅全面地评估了算法性能同时为模型训练提供了极大的便利。其次,我们分类讨论了几大类经典的深度学习跟踪框架,包括深度相关滤波器跟踪、分类式网络跟踪、双路网络跟踪、基于梯度的深度跟踪算法以及基于ransformer的跟踪算法。最后,我们对全文内容进行总结,并指出未来的发展趋势。

  关键字:深度目标跟踪;跟踪数据集;相关滤波器;分类式跟踪网络;双路跟踪网络;梯度跟踪网络

深度视觉目标

  1引言

  视觉目标跟踪是计算机视觉领域的一个基本任务。目标跟踪旨在基于初始帧中指定的感兴趣目标(一般用矩形框表示),在后续帧中对该目标进行持续的定位,如图所示。目标跟踪的应用场景非常广泛,包含视频监控、人机交互、机器人、无人驾驶等。虽然近二十年来,视觉目标跟踪取得了极大的进展,但是一些挑战性因素如目标遮挡、背景杂乱、运动模糊、光照变化等仍是目标跟踪算法面临的主要挑战。传统的视觉跟踪算法通常采用手工特征来对目标进行表观建模,然后通过训练鲁棒的辨别式或生成式模型实现目标跟踪,典型的方法包括MIL[1]、TLD[2]、SCM[3],STRUCK[4]、KCF[5]等。然而,在新近的比较有挑战性的数据集如VOT2018[6]或大规模数据集TrackingNet[7]和LaSOT[8]上,这些算法的性能远远达不到实际应用的要求。

  自从2012年AlexNet[9]在图像分类任务中大放异彩,深度学习受到了广泛关注。得益于强大的特征提取能力和端到端的训练模式,深度学习技术在计算机视觉、机器学习、自然语言处理等领域都广受关注,并取得了巨大进展。在过去的五六年间,基于深度学习的目标跟踪算法获得了巨大突破。一些经典的深度跟踪算法,如HCF[10]、MDNet[11]、SiamFC[12]、ECO[13]、SiamRPN[14]、ATOM[15]、DiMP[16]等不同程度地挖掘了深度学习的潜能并显著提高了跟踪性能。例如,在经典的OTB2015[17]数据集上,这些深度学习的跟踪算法大幅度超越经典的跟踪器并不断刷新最优性能。在每年举办的视觉跟踪的挑战赛如VOT2018中,排名前10位的算法均不同程度的使用了深度特征。

  这些深度学习的跟踪算法采用了各种各样的框架,包含相关滤波器、分类式网络、双路网络等。在处理跟踪任务的角度上,从基于匹配思想的双路网络框架到基于二分类思想的辨别式跟踪器,各种算法框架在性能和效率上各有千秋。 最初的深度跟踪算法主要聚焦于相关滤波器。通过将传统相关滤波器中的手工特征替换成深度特征,跟踪性能得到了大幅度提升。后续研究人员尝试端到端地结合相关滤波器和深度模型,并进一步引出了一系列的基于梯度优化的方案,如iMP算法16。

  通过将跟踪任务视为模板匹配,基于双路网络的跟踪算法(如iamFC[12])由于其简洁的框架和高效率而受到了极大的关注。但是该类方法由于忽略了背景信息,因而对相似干扰物的辨别能力较弱,后续工作在双路网络中借鉴相关滤波器来提升模型的辨别能力。另一方面,受启发于目标检测领域的进展,基于分类式的深度跟踪框架(如MDNet[11])、双路网络结合区域锚点的多尺度回归14等思路同样被广泛研究。近期基于ransformer的深度跟踪器,使用注意力机制进行跟踪模型建模,取得了领先的性能。

  我们总结了深度跟踪领域常见的框架及代表性工作。表大致按照各种算法最早出现的顺序进行安排。深度相关滤波器大致在2015年左右被提出(如HCF[10),并在近年来持续受到关注。相关滤波器的思想近年来被其他跟踪框架如双路网络和基于梯度的跟踪器所吸纳。基于分类网络(MDNet)和双路网络(iamFC)的跟踪算法几乎同时期被提出,大致于2016年左右,并获得了广泛关注。

  但是由于分类网络需要在线的模型微调,导致效率偏低,因而近年来关注度逐渐降低。双路网络通过汲取相关滤波器的优势(如CFNet)以及融入区域候选网络(如iamRPN)而持续地演变和进化,目前仍是研究的热点。基于梯度的优化方法在2019年左右受到了广泛关注,其代表性工作包括ATOM和iMP。该类方法受启发于相关滤波器,通过采用快速梯度下降的方法求解具有前景、背景区分能力的滤波器核。由于利用了背景信息,该类方法相比于双路网络具有更好的干扰物辨别能力。

  在2021年,同时期出现了数个基于ransformer结构的深度跟踪算法。该类方法利用注意力机制利用时序信息24,或对跟踪器建模25[26],取得了十分突出的性能。为了总结归纳深度跟踪算法的发展趋势,本文详细梳理了近年来深度跟踪领域的相关工作,并按如下的顺序进行阐述:跟踪数据集的发展趋势、结合深度特征的相关滤波器、基于分类网络的跟踪算法、基于双路网络的跟踪算法、基于梯度的深度跟踪算法、基于ransformer的深度跟踪等,最后对研究方向进行展望。

  跟踪数据集发展趋势数据、算法和算力是人工智能的重要的三个要素。在计算机视觉任务中,好的数据集往往能够带动相关领域的快速发展。随着卷积神经网络的快速发展,更多参数量的网络往往需要更多的数据去学习得到一个更好的模型。因此,一个良好的标注数据集能快速促进相关算法的发展。近些年来,视频目标跟踪领域出现了许多不同大小、不同种类的数据集。这些数据集引领了目标跟踪算法的进步。因此本节内容将详细介绍目标跟踪领域的常见数据集。

  OTB:OTB数据集一共包含TB201327]和TB2015[17]两个版本。其中OTB2013数据集包含51个视频序列,由Wu等人收集了以往目标跟踪领域的常用测试视频。该数据集考虑到很多影响跟踪性能的因素,比如形变、遮挡、光照变化、快速运动、运动模糊等。同时作者还提出了一系列的评估准则。这些准则与数据集一起为跟踪算法提供了相对统一的测试与评估环境,有利于不同跟踪方法之间的比较,极大地促进了早期目标跟踪任务的发展。OTB2015是OTB2013数据集的扩充,通过引入额外的视频,该数据集总共包含100个视频。此外,该数据集还对视频标出了遮挡、形变、快速运动、模糊等个视频属性,便于分析跟踪器应对不同场景的能力。

  3深度跟踪算法

  3.1深度相关滤波器跟踪

  相关滤波器(CorrelationFilter,CF)通过学习一个具有区分力的滤波器来处理待跟踪的图片,其输出结果为一个响应图,表示目标在后续帧中的不同位置的置信度。相关滤波器通过利用循环样本和循环矩阵的性质求解岭回归问题,得到了频域上的高效闭合解,计算效率十分高效。传统的相关滤波器使用手工特征(如HOG、ColorName等)进行学习,较好地兼顾了性能和效率。但由于相关滤波器的学习过程中引入了循环样本,这些样本不可避免的带来了边界效应,因此传统的相关滤波器算法在如何抑制边界效应上开展了大量的研究,典型的工作包括SRDCF[33]、BACF[34]、ASRCF[35]等。

  其余的经典工作包含如何自适应调整学习率(如SRDCFdecon[36),如何引入更多的背景信息(如CACF[37])等。随着深度学习的日益发展,深度学习和相关滤波器的结合受到了广泛的关注。在早期的工作中,研究人员探索如何将离线训练好的深度特征(如利用ImageNet预训练的VGG模型[38])和相关滤波器进行结合。典型的工作HCF10]提出将不同层的深度特征分别训练相关滤波器并进行由粗到精的融合。高层的语义特征对于目标的抽象表达能力很强,而低层的模型特征擅长于刻画目标的纹理、形状等底层信息。通过将不同尺度的特征下的滤波响应图进行融合,相关滤波器更好地利用了深度模型。

  4展望

  视觉跟踪领域的算法层出不穷,并且各类算法框架都处于不断的发展与完善中。随着研究的不断深入,深度学习的潜能也进一步被激发。然而,现有的框架仍存在有待提升的空间。最近的双路网络方法(如SiamRPN++)和梯度优化的方法如DiMP)为了追求高性能,均采用了很深的CNN模型如ResNet50。最新的深度模型动辄具有几十甚至上百兆的模型大小,使得这些算法需要极大的存储空间,限制了实际应用。如何设计适合他们的轻量级模型,例如使用神经网络搜索的方式来获得更优的模型结构,以兼顾低内存消耗和高精度具有重要的研究价值。

  此外,随着CNN网络越来约深,模型越来约复杂,几大类深度跟踪框架无论双路网络(SiamRPN++)、分类网络(如RTMDNet)还是梯度优化的方法(DiMP),都仅能保持GPU设备下勉强实时的速度。视觉跟踪作为很多应用系统中的底层辅助任务,对于效率有很高的要求。期待未来更多的工作能够聚焦于跟踪算法的速度提升。设计硬件友好的模型运算结构,用于特定场景的高效率视觉跟踪同样具有巨大的应用前景。基于ransformer的视觉跟踪算法刚刚起步,未来有巨大的挖掘空间。

  首先,目前的ransformer跟踪算法25][26仍没有充分利用背景信息,如何将背景信息引入到ransformer结构中提升它的前景、背景区分能力有待探索。其次,设计可更新的ransformer结构,用于适应目标的外观变化亟需探索。例如,STARK算法26仅仅粗暴地加入一帧历史样本,如何更好地利用时序信息以更新ransformer模型将有助于达到更优性能。最后,ransformer的注意力机制擅长于进行多模态信息间的转换以及融合,该框架的兴起为多模态的视觉跟踪提供了良好的研究契机,如带有红外信息(RGBT视频中)和深度信息(RGBD视频中)的视觉跟踪。

  计算机方向评职知识:写机器视觉论文好发表吗

  5结束语

  尽管近十年来视觉目标跟踪技术取得了巨大的进展,但在复杂的实际场景中,计算机跟踪系统和人类的视觉系统仍有巨大差距。虽然深度学习算法取得了令人瞩目的成绩,但与此同时带来的跟踪效率限制和模型存储消耗等问题仍需进一步完善。真正意义上的通用、鲁棒、准确且高效率的视觉跟踪研究仍然任重道远。但是,我们也目睹了近年来的视觉跟踪领域的快速迭代和不断突破,相信在众多研究者的共同努力下,未来的视觉目标跟踪技术会朝着实用的、高效的、可靠的、通用的跟踪技术更进一步。

  参考文献

  [1]BabenkoB,YangMH,BelongieS.Robustobjecttrackingwithonlinemultipleinstancelearning[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2011,33(8):16191632.

  [2]KalalZ,MikolajczykK,MatasJ.Trackinglearningdetection[J].IEEETransactionsonSoftwareEngineering,2011,34(7):14091422.

  作者:王宁,席茂,周文罡,李礼,李厚强

转载请注明来自发表学术论文网:http://www.fbxslw.com/dzlw/27177.html