基于视频时空关系的高速公路异常停车检测

所属分类：经济论文阅读967次时间：2022-01-21 10:51

本文摘要：摘要：针对传统高速公路异常事件检测方法效率低、漏检率高、实时性较差等问题，提出基于视频时空关系的高速公路异常停车检测方法。首先，采用基于交通流频率分析的无监督分割方法分割道路图像，去除较小连通域提取道路分割图;然后，通过透视关系模型将近远目标归一化到

　　摘要：针对传统高速公路异常事件检测方法效率低、漏检率高、实时性较差等问题，提出基于视频时空关系的高速公路异常停车检测方法。首先，采用基于交通流频率分析的无监督分割方法分割道路图像，去除较小连通域提取道路分割图;然后，通过透视关系模型将近远目标归一化到同一尺度并进行裁剪，输入YOLOv4网络进行二次检测增强对近远目标检测的鲁棒性;最后建立时空信息矩阵，通过时空矩阵的更新与NMS(Non-MaximumSuppression)方法检测合并异常区域并输出检测结果。实验结果显示，该方法在远距离场景中的准确率为95%，在拥挤场景中的准确率为93%;通过对比实验结果发现该方法能够有效提高复杂场景下异常停车检测准确率且具有良好的泛化能力。

　　关键词：智能交通;异常停车;道路分割;YOLOv4;透视关系;时空关系

高速公路

　　0引言

　　近年来，我国机动车数量不断增加，给现有道路通行能力和交通管控能力带来了巨大挑战。特别是在高速公路环境中，车辆违停等异常行为一旦发生，将会导致严重的交通事故。因此及时发现异常行驶车辆，检测交通异常事件十分重要。传统人工观看视频监控并判断交通事件异常的检测方式劳动强度大，工作效率低且存在漏判现象，已不能满足智能交通发展的需求，基于计算机视觉的交通异常事件自动检测技术越来越受到学者们的重视[1~3]。

　　目前主流的基于计算机视觉的异常自动检测方法包括：基于模型的异常行为检测和基于深度学习的异常行为检测[4]。基于模型的方法通常采用正常样本进行模型构造，由于异常行为会偏离正常行为模型，故在测试阶段偏离模型的样本即可判定为异常。

　　高斯混合模型(GMM)、隐马尔可夫模型(HMM)是异常检测中常用的参数模型。在车辆异常行为检测算法中，GMM模型可以自动获取关联属性并通过曲面拟合和加权抽样策略克服异常检测中样本不足的问题[5,6]，但其计算过程复杂且特征数目较大时计算成本较高。HMM模型可以依据时域特征将目标行为分解为简单和复杂两部分以有效检测场景中的细微异常行为[7]，但其在训练时需提前设定状态数目且无法更改，因此仅适用于对场景先验知识较了解的情况。狄利克雷混合模型(DPMM)是一种非参数模型，基于DPMM对车辆行为建模时无须提前设定模型数目，相比于参数模型更适用于对视频中复杂场景的异常检测[8,9]。

　　上述基于模型的异常检测虽然具有良好的检测效果，但其依赖于手工提取时空域特征且场景迁移能力差。因此随着深度学习的发展，异常行为检测算法正由基于模型的方法向基于深度学习的方法转换。基于深度学习的异常检测方法通过特定的网络结构，从大量训练数据中自动提取由低阶边缘到高阶语义等更具有判别性的行为表示特征，具有更优异的行为检测性能。

　　基于深度学习的异常检测方法可分为基于监督学习的方法和基于无监督学习的方法。基于监督学习的方法操作简单、易于理解，但标注数据需要大量时间，面对真实场景时检测效果不佳，此外该方法需要大量时间调节参数以获取最佳异常检测结果[10,11]。所以基于深度学习的方法更多的采用无监督的训练方法。Lazzaretti等应用自动编码器对正常样本行为进行特征表示，再利用解码器对视频帧进行重建，最后根据重建误差检测异常[12]。

　　文献[13]基于变分自编码器(VAE)通过端对端的深度学习技术将正常样本的隐层表示约束成一个高斯分布，计算测试样本隐层表示属于高斯分布的概率并根据检测门限判断其是否异常。Liu等利用生成对抗网络(generativeadversarialnetwork，GAN)等生成式网络对视频进行重建或预测，再将重建误差大于阈值的个例判定为异常[14]。Chong等通过将空间卷积特征提取器和时间特征提取器合并到深度自动编码器中，构建了一个端到端的异常检测模型[15]。Medel等采用基于卷积LSTM(convolutionalLSTM，Conv-LSTM)网络的自编码器对正常行为的外观和运动模式进行建模，进一步提高了基于自编码器的异常行为检测方法的性能[16]。

　　基于无监督的车辆异常行为检测算法无须对样本进行注释，仅依靠样本数据自身分布规律将小概率事件判定为异常。但在异常检测时需要构建复杂的网络模型，检测效率低且需要对原始样本数据进行大量的处理和分析。例如，自编码器通过无监督的方式对交通场景中的车辆正常行为进行特征表示，但车辆异常行为的检测需要对比分析正常样本检测来重建误差。基于以上工作，本文提出基于时空关系的异常停车检测，该方法采用无监督学习，检测结果仅依赖于目标识别结果，无须对待测数据进行分析与处理，能够准确定位异常启停时间，有效适应多变的环境。

　　首先使用均值法建立背景，再依据交通流频率信息分割路面;其次将透视关系与YOLOv4网络结合以进行车辆目标检测，该操作将处于图像中不同位置的目标归一化，提高了远处小目标检测的精度;然后根据车辆检测结果构造时空矩阵以记录每个被检像素的时空状态;最后依据时空矩阵的更新检测异常，并对得到的异常采用非极大值抑制(NMS)方法进行回溯合并以得到准确的异常区域和开始、结束时间。该检测方法能够快速高效的检测异常停车事件且具有良好的泛化能力。

　　1基于透视关系和YOLOv4模型的车辆检测

　　1.1交通流频率道路分割

　　为了获取车辆坐标位置，判断车辆违停状态，精确提取运动目标前景是后续目标检测和异常检测的关键。高速公路监控视频图像视野较大，需要选用合适的方法分割路面以排除场景外房屋或路侧树木对目标检测的影响。本文应用一种基于交通流频率分析的无监督分割方法，该方法操作简单且效果良好。

　　1.2透视关系建模

　　滤除运动目标后需要检测静止车辆，然而实际交通场景中远处小目标容易漏检从而导致异常事件漏检。因此本文利用透视关系[18]将近远目标归一化到一个更小的波动范围以增强对近远目标检测的鲁棒性。

　　1.3基于透视关系的YOLOv4车辆检测

　　透视关系的建立主要依靠检测框结果，因此选用合适的目标检测算法进行初始检测十分重要。目前主流的目标检测算法有ONE-STAGE和TWO-STAGE两种，TWO-STAGE指检测算法分两步完成，首先获取候选区域，然后进行分类，典型代表有CNN[21]系列;与之相对的ONESTAGE检测则无须单独寻找候选区域，如SSD[22]/YOLO[23]系列。

　　YOLO能够在GPU上每秒处理较高帧数，同时提供与其他先进的模型相同甚至更好的精度[24]。速度是交通视频检测异常的关键，因此本文选用YOLOv4网络作为车辆目标检测网络并将其与透视关系结合以获取车辆的精确位置。首先利用YOLOv4获取初始检测框结果，然后应用线性回归计算透视关系中的关键系数和，基于此就能够对图像中不同区域的尺度进行归一化裁剪。裁剪区域面积根据区域内可容纳的目标数量进行划分。

　　2基于时空关系的车辆异常停车检测方法

　　通过透视检测模块能够获取静止车辆位置信息，但并非所有检测的静止车辆都可判定为异常，并且根据检测结果确定同一异常开始和结束时间十分困难。一个常用方法是使用对象跟踪[26,27]或光流法[28]分析同一车辆的轨迹以判定异常。但是基于轨迹特征的异常检测依赖于轨迹提取，而视频质量、车辆间互相干扰都会导致轨迹缩减。其中，当连续检测到某位置时，该位置进入可疑异常状态，该异常状态由Vstate更新，当检测到最新异常时，计数矩阵Vdetected和连续未检测矩阵Vundetected更新。

　　道路异常停车的一个主要标准是停车时间长短。故本文只分析进入可疑异常状态且持续时间最长的位置。当异常持续时间过长(大于60s)时，以该位置为起点进行广度优先遍历，以得到Vdetected中计数值相似的连通区域。同时记录该连通区域进入异常状态的开始时间Vstart，同时待该区域的异常状态Vstate更新后输出结束时间Vend，并将检测到连通区域位置的平均得分作为异常得分。

　　为了获取准确完整的异常停车区域，本文应用NMS方法合并上述连通区域，并将大于阈值IOU(IntersectionoverUnion)的异常更新最早时间定义为异常停车的开始时间，最晚时间为结束时间。因算法输入为加权平均后的图像，故检测到静止车辆时间存在延迟。针对这一问题，本文在固定时间长度内对异常区域的原始图像进行时间回溯。回溯过程中的异常区域与当前输出异常区域面积的IOU大于0.5时，更新异常开始时间。同时，如果在此异常区域内持续检测到车辆则继续回溯，直到未检测到新异常为止。算法1基于时空矩阵的异常停车检测算法

　　3实验结果与分析

　　3.1实验方法

　　3.2实验数据集

　　本文选取来自三个真实高速公路中不同场景的监控视频和UADETRAC数据集[16]作为车辆检测数据样本。其中UADETRAC包含使用CannonEOS550D相机在在中国北京和天津不同位置拍摄的24个10小时视频，分辨率为960*540。高速公路监控视频包含雨天、夜晚等复杂天气和匝道、主干道、上坡等不同场景的5段视频，分辨率为1270*980，从中抽取若干帧采用人工方式进行标注和分类。该混合数据集共包含5200张图像，采用随机选择的方式将数据集分成80%的训练集和20%的测试集。

　　训练集有3924张图像，其中，包含2616张来自真实高速公路的监控视频，1308张来自UADETRAC数据集。测试集有1276张图像车辆目标与训练集完全不同的图像以测试已训练模型的准确率。由于来自真实环境的异常数据难以捕捉，因此本次实验使用英伟达官方发布的异常事件检测数据集[29]。该数据集由100个视频组成，每个视频平均时长约15分钟，帧速为每秒30帧，分辨率为800*410，共包含18起由车祸、违章停车引起的异常停车事件。

　　3.3实验评价指标

　　异常数据集包含异常停车事件及异常开始及结束时间，所以应用F1-Score衡量模型检测性能，F1分数越大，模型检测异常准确率越高，应用均方根误差(RMSE)衡量检测时间误差，时间误差越小，模型检测异常起始时间越准确。

　　3.4实验过程及评价

　　本文以上述异常数据集为研究对象，验证异常停车检测算法的正确性。其中视频分辨率为800*410，帧率为30帧/s。截取自高速公路异常停车事件发生视频的第1803帧、第5623帧、第7023帧、第10168帧及包括本文算法在内的三种异常算法检测结果。该视频展示的是目标车辆由正常行驶状态逐渐变为减速慢行状态，最后变成停车状态的过程。从图中可以看出，从1803帧到5623帧车辆由正常行驶开始逐渐减速行驶，单位时间内的位移逐渐变小;从5623帧到7023帧，车辆由减速行驶变为停止状态，且在该位置停止了一段时间，在10168帧时异常停车状态结束。

　　其中第一行为基于时序模型[16]的检测结果，该方法对运动目标的速度和方向进行建模，提取光流特征至卷积神经网络并结合分类算法实现异常停车检测，但是由于异常发生时间过长，该时序模型已经无法保持异常检测状态导致在7023帧时丢失异常。中间为基于运动目标轨迹[28]的检测结果，该方法通过检测运动目标轨迹并创建基于轨迹的异常判断模型检测出了异常停车事件，但是在5623帧中，受异常停车事件影响而行车缓慢的两辆车轨迹与异常轨迹高度相似(绿色框标注)，导致基于轨迹的异常检测模型检测失误。

　　最后一行为本文异常检测模型的检测结果，通过输入加权平均图像至本文所述异常停车检测算法，准确的检测到了异常停止车辆并给出了异常开始和结束时间。为了验证本文异常停车检测算法的有效性，分别对高速公路近远距离场景及道路拥挤场景进行检测并使用基于运动目标轨迹的异常检测算法、基于时序模型的检测算法作对比实验。实验中对相关参数进行设置，将正常状态转换到可疑状态的阈值设置为6个连续帧，thresholddetected=6，可疑状态转换到正常状态的阈值设置为8个连续帧，thresholdundetected=8，输出异常的最短时间阈值为60s，检测异常的最小分数阈值为0.8。

　　在近距离和远距离场景中，本文方法在时间误差和准确率方面均表现出了更好的性能。在远距离场景中本文方法的F1分数和S分数更高，说明本文方法能够提升远距离场景的事件检测能力，有效减少事件的漏检而且检测时间误差小。采用基于运动目标轨迹的异常检测算法，当背景经常变化或者目标较小时，易将车辆过滤掉而导致车辆不能有效追踪，从而使得远距离场景下的异常事件准确性较低。采用基于时序模型的检测方法在异常事件持续时间较长时无法保持检测状态且应用深度卷积神经网络提高检测准确率需花费较长的时间，难以满足实时性的要求。

　　在道路拥挤和正常路况中，本文方法的时间误差(RMSE)更小，S分数更大，说明本文方法对异常停车的检测反应更敏感，定位更准确。由于拥堵场景中运动目标数量多，轨迹匹配和切换复杂导致获取运动目标的轨迹质量差，难以精确定位停车异常。基于时序模型的方法需要对运动目标速度方向建模而拥挤道路中车辆运动速度缓慢，提取出的光流特征难以区分导致异常检测能力下降。

　　4结束语

　　本文完成了基于视频时空关系的异常停车检测研究，该方法能够最大限度减少非异常信息的干扰。首先，量化空间交通频率得交通流频率分割图，二值化分割图后过滤小的独立连接域实现无监督道路分割，消除道路外因素的干扰;通过不断叠加输入帧来增强静态对象，消除动态交通干扰。其次，利用透视关系和YOLOv4获取车辆坐标，透视关系将视频远近区域转换成统一的尺度，提高了目标检测精度。

　　最后，提取视频时空矩阵分析异常空间中的车辆位置，应用NMS模块合并异常检测信息得到异常的开始和结束时间。实验结果表明，本文提出的高速公路异常停车检测算法可以提升远距离场景和拥堵场景下异常事件的检测准确率，且无须标注数据和构建复杂的网络模型，计算速度快，占用资源少，体现了识别准确性和实时性。但该方法无法在线实时应用，后续计划将检测结果替换为车辆密度图，以实现对车辆位置和概率分布的更连续估计，并提高时间估计的准确性。

　　参考文献：

　　[1]MouLuntian,MaoShasha,XieHaitao,etal.Structuredbehaviorpredictionofon-roadvehiclesviadeepforest[J].ElectronicsLetters,2019,55(8):452-454.

　　[2]LINWY,ZHOUY,XUHT,etal.Atube-and-droplet-basedapproachforrepresentingandanalyzingmotiontrajectories.IEEETransactionsonPatternAnalysisandMachineIntelligence,2017,39(8):1489-1503.

　　[3]DegardinB,ProenaH.Iterativeweak/self-supervisedclassificationframeworkforabnormaleventsdetection[J].PatternRecognitionLetters,2021:145.

　　[4]ShiraziMS,MorrisBT.Lookingatintersections:Asurveyofintersectionmonitoringbehaviorandsafetyanalysisofrecentstudies[J]. IEEETransactionsonIntelligentTransportationSystems,2017:1-21.

　　[5]李楠芳,王旭,马学智,等.基于隐高斯模型的多元离散数据异常检测[J].计算机应用与软件,2018,35(08):249-253.(LiNanfang,WangXu,MaXuezhi.et.al.MultivariateDiscreteDataAnomalyDetectionBasedonHiddenGaussianModel.Computerapplicationsandsoftware.2018,35(08):249-253.)

　　[6]Aköz,Ömer,KarsligilME.Trafficeventclassificationatintersectionsbasedontheseverityofabnormality[J].MachineVisionandApplications.2014,25(3):613-632.

　　[7]NganHYT,YungNHC,YehAGO.Outlierdetectionintrafficdatabasedonthedirichletprocessmixturemodel[J].IntelligentTransportSystemsIet,2015,9(7):773-781.

　　[8]SanthoshKK,DograDP,RoyPP,etal.Trajectory-basedsceneunderstandingusingdirichletprocessmixturemodel[J].IEEEtransactionsoncybernetics.2018,51(8):4148-4161.

　　[9]ChalapathyR,BorzeshiEZ,PiccardiM.Aninvestigationofrecurrentneuralarchitecturesfordrugnamerecognition[C]/ProceedingsoftheSeventhInternationalWorkshoponHealthTextMiningandInformationAnalysis.2016.(2016-9-24)[2021-7-30].http://arxiv.org/abs/1609.07585.

　　作者：梁睿琳1a，王锐2†，郭迎1a,1b