改进YOLOv5s和DeepSORT的井下人员检测及跟踪算法.pdf
《改进YOLOv5s和DeepSORT的井下人员检测及跟踪算法.pdf》由会员分享,可在线阅读,更多相关《改进YOLOv5s和DeepSORT的井下人员检测及跟踪算法.pdf(11页珍藏版)》请在文库网上搜索。
1、改进 YOLOv5s 和 DeepSORT 的井下人员检测及跟踪算法邵小强,李鑫,杨涛,杨永德,刘士博,原泽文(西安科技大学电气与控制工程学院,陕西西安710054)摘要:矿井移动目标的实时监测及跟踪系统是建设智慧矿山必不可少的内容,井下巡检机器人的出现可以实现对作业人员的实时监测,但是井下光照不均、煤尘干扰等因素的存在导致传统图像检测算法无法准确检测出作业人员。基于此提出一种可部署于井下巡检机器人的改进 YOLOv5s 和 Deep-SORT 的井下人员检测及跟踪算法。首先利用监控摄像头与巡检机器人所录视频制作数据集,然后使用改进 YOLOv5s 网络对井下人员进行识别:考虑到井下人员检测及
2、跟踪算法包含复杂的网络结构和庞大的参数体量,限制了检测模型的响应速度,使用改进轻量化网络 ShuffleNetV2 替代原 YOLOv5s主干网络 CSP-Darknet53。同时,为减少图像中复杂背景的干扰,提升作业人员的关注度,将 Trans-former 自注意力模块融入改进 ShuffleNetV2。其次,为了使多尺度特征能够有效融合且使得推理信息能够有效传输,将 Neck中 FPN+PAN 结构替换为 BiFPN 结构。接着利用改进 DeepSORT 对人员进行编码追踪:考虑到井下环境黑暗,照度低,无纹理性,DeepSORT 难以有效提取到人员的外观信息,于是采用更深层卷积替换 De
3、epSORT 中小型残差网络来强化 DeepSORT 的外观信息提取能力。最后通过公开行人数据集及自建井下人员检测及跟踪数据集对本文改进算法进行验证,结果表明:改进的检测模型相比于原 YOLOv5s 模型平均检测精度提高了 5.2%,参数量减少了 41%,速度提升了 21%;改进 YOLOv5s-DeepSORT 的井下人员跟踪方法精度达到了 89.17%,速度达到了 67FPS,可以有效部署于井下巡检机器人实现作业人员的实时检测及跟踪。关键词:井下巡检机器人;YOLOv5s;轻量化;DeepSORT;实时检测及跟踪中图分类号:TD76文献标志码:A文章编号:02532336(2023)100
4、29111Underground personnel detection and tracking based on improvedYOLOv5s and DeepSORTSHAOXiaoqiang,LIXin,YANGTao,YANGYongde,LIUShibo,YUANZewen(College of Electrical and Control Engineering,Xian University of Science and Technology,Xian 710054,China)Abstract:Thereal-timemonitoringandtrackingsystemo
5、fminemovingtargetsisanessentialpartoftheconstructionofsmartmines.Theappearanceofdownholeinspectionrobotscanrealizethereal-timemonitoringofoperators,buttheexistenceofunevenlighting,coaldustinterferenceandotherfactorsleadtothetraditionalimagedetectionalgorithmcannotaccuratelydetectoperators.Basedonthi
6、s,thispa-perproposesanimprovedYOLOv5sandDeepSORTalgorithmfordownholepersonneldetectionandtrackingthatcanbedeployedindownholeinspectionrobots.Firstly,thedatasetwasmadebyusingthevideorecordedbythesurveillancecameraandinspectionrobot,andthentheimprovedYOLOv5snetworkwasusedtoidentifytheundergroundperson
7、nel:Consideringthatthedetectionandtrackingal-gorithmfordownholepersonnelcontainscomplexnetworkstructureandhugeparametervolume,whichlimitstheresponsespeedofthedetectionmodel,thispaperusesanimprovedlightweightnetworkShuffleNetV2toreplacetheoriginalYOLOv5sbackbonenetworkCSP-收稿日期:20221116责任编辑:周子博DOI:10.
8、13199/ki.cst.2022-1933基金项目:国家自然科学基金资助项目(52174198)作者简介:邵小强(1976),男,陕西商州人,副教授,博士。E-mail:通讯作者:李鑫(1998),男,山西太原人,硕士研究生。E-mail:第51卷第10期煤炭科学技术Vol.51No.102023年10月CoalScienceandTechnologyOct.2023邵小强,李鑫,杨涛,等.改进 YOLOv5s 和 DeepSORT 的井下人员检测及跟踪算法J.煤炭科学技术,2023,51(10):291301.SHAOXiaoqiang,LIXin,YANGTao,et al.Underg
9、roundpersonneldetectionandtrackingbasedonimprovedYOLOv5sandDeepSORTJ.CoalScienceandTechnology,2023,51(10):291301.291Darknet53.Meanwhile,inordertoreducetheinterferenceofcompleximagebackgroundandimprovetheattentionofoperators,Trans-formerself-attentionmoduleisintegratedintotheShuffleNetV2.Secondly,the
10、FPN+PANstructureinNeckisreplacedbyBiFPNstruc-tureinordertoeffectivelyfusemulti-scalefeaturesandeffectivelytransmitinferenceinformation.Then,improvedDeepSORTwasusedtoencodeandtrackpersonnel:consideringthattheundergroundenvironmentwasdark,withlowilluminationandnotexture,itwasdiffi-cultforDeepSORTtoeff
11、ectivelyextractpersonnelsappearanceinformation,soDeepSORTssmallandmediumresidualnetworkwasre-placedbydeeperconvolutiontoenhanceDeepSORTsappearanceinformationextractionability.Finally,theimprovedalgorithmisveri-fiedbyopenpedestriandatasetandself-builtundergroundpersonneldetectionandtrackingdataset.Th
12、eresultsshowthatcomparedwiththeoriginalYOLOv5smodel,theaveragedetectionaccuracyoftheimproveddetectionmodelisincreasedby5.2%,thenumberofpara-metersisreducedby41%,andthespeedisincreasedby21%.TheimprovedYOLOv5s-DeepSORTdownholepersonneltrackingmethodhasaprecisionof89.17%andaspeedof67FPS,whichcanbeeffec
13、tivelydeployedindownholeinspectionrobotstorealizereal-timede-tectionandtrackingofoperators.Key words:downholeinspectionrobot;YOLOv5s;Lightweight;DeepSORT;Real-timedetectionandtracking0引言为了扎实推进智慧矿山的建设,提升企业整体的信息化、数字化水平,对井下监控系统与巡检机器人的检测及跟踪能力进行全面升级是十分必要的。国家煤矿安监局最新出台的煤矿井下单班作业人数限员规定将矿井按生产能力分为 7 档,对于各档次矿井下
14、单班作业人数及采掘工作面作业人数做出限制。于是对井下人员进行实时跟踪及统计是避免发生安全事故的有效手段。但井下工作环境存在着光照不均,煤尘干扰严重等问题,导致工作人员无法长时间有效对监控视频进行多场景监控1,且定点监控覆盖面有限。因此,使用巡检机器人取代工作人员进行实时监控对于减轻职工工作强度,降低岗位安全风险,实现企业减人增效和建设智慧矿山有着积极的作用2。当今目标检测算法分为 2 大类:传统机器学习与深度神经网络。传统机器学习算法分为三部分:滑动窗口、特征提取、分类器3。此类算法针对性低、时间复杂度高、存在窗口冗余4;并且手工设计的特征鲁棒性差、泛化能力弱5,这导致传统机器学习算法逐渐被深
15、度学习算法所取代6。李若熙等7通过YOLOv48算法进行井下人员检测,在寻找目标中心点时引入聚类分析算法,提升了模型的特征提取能力。杨世超9通过 Faster-RCNN10算法进行井下人员检测,将井下监控采集的图像输入到检测模型中提取特征,利用区域建议网络和感兴趣区域池化得到目标的特征图,最后通过全连接层得到目标的精确位置。董昕宇等11通过 SSD12算法构建了一种井下人员检测模型,采用深度可分离卷积模块和倒置残差模块构建轻量化模型,提升了模型的检测速度。陈伟等13提出一种基于注意力机制的无监督矿井人员跟踪算法,结合相关滤波和孪生网络在跟踪任务的优势,构建轻量化目标跟踪模型。以上文献都是利用深
16、度学习算法实现井下人员检测与跟踪,但是当出现目标遮挡时,检测效果均不佳;同时缺少对井下人员编码统计的能力;而且模型参数量较大,检测速率也有待提高14。针对上述问题,基于YOLOv5s15和DeepSORT16模型进行改进,使用改进轻量化网络ShuffleNetV217替代 YOLOv5s 主干网络 CSP-Darknet5318,使得模型在保持精度的同时降低了计算量。同时在改进ShuffleNetV2 中添加 Transformer19自注意力模块来强化模型深浅特征的全局提取能力。接着使用 Bi-FPN20结构替换原 Neck 结构,使多尺度特征能够有效融合。最后使用更深层卷积强化 DeepS
17、ORT 的外观信息提取能力,有效的提取图像的全局特征和深层信息,减少了目标编码切换的次数。实验结果表明,改进后的模型有效解决了人员遮挡时检测效果不佳及编码频繁切换的问题。1YOLOv5s 模型YOLOv5 是当前深度学习主流的 One-Stage结构目标检测网络,共有 4 个版本:YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x。考虑到井下巡检机器人的轻量化设计,本文采用深度最小,特征图宽度最小的网络 Yolov5s。其分为输入端 Input、主干网络 Backbone、颈部网络 Neck、输出端 Head 四部分。输入端通过 Mosaic 数据增强、自适应锚框计算、自适应图片缩
18、放,使得模型适用于各种尺寸大小图像的输入的同时丰富了数据集,提升了网络的泛化能力。主干网络包含:焦点层(Focus),Focus 结构在之前的 YOLO 系列21-23,8中没有引入,它直接对输入的图像进行切片操作,使得图片下采样操作时,在不发生信息丢失的情况下,让特征提取更充分24;跨2023年第10期煤炭科学技术第51卷292阶段局部网络层(CrossStagePartialNetwork,CSP),CSP25结构是为了解决推理过程中计算量过大的问题;空间金字塔池化(SpatialPyramidPooling,SPP),SPP26结构能将任意大小的特征图转换成固定大小的特征向量。Neck
19、中采用的是 FPN+PAN 结构,负责对特征进行多尺度融合。Head 输出端负责最终的预测输出,使用 GIOU 损失函数作为位置回归损失函数,交叉熵损失函数作为类别损失函数,其作用是在不同尺度的特征图上预测不同大小的目标。2改进 YOLOv5s 井下人员检测算法提出的井下人员检测框架如图 1 所示。首先将井下巡检机器人所采集的图像逐帧输入到改进YOLOv5s 中进行训练,从而获取到网络的训练权重,最后利用测试集图像对本文改进的目标检测算法进行验证。CBS=ConvBNSiLURes Unit=CBSCBSaddSPP=CBSMaxpoolMaxpoolMaxpoolConcatCBSC3=CB
20、SRes UnitConvConvConcatBNSiLUCBSInputCBSMaxpoolShuffleNetv2Unit2ShuffleNetv2Unit1*3TransformerShuffleNetv2Unit2ShuffleNetv2Unit1*7TransformerShuffleNetv2Unit2ShuffleNetv2Unit1*3SPPTransformerConcatC3Conv上采样ConvC3ConcatConv上采样ConvC3ConvConvConcatConcatC3ConvBackboneNeckPrediction图1本文目标检测算法框架Fig.1Dete
21、ctionframeworkoftheproposedalgorithm2.1主干网络的替换由于 YOLOv5s 具有较大的参数量,对于硬件成本要求较高,难以部署在小型的嵌入式设备或者移动端设备。因此使用轻量化网络 ShuffleNetV2 代替原主干网络 CSP-Darknet53,通过深度可分离卷积来代替传统卷积减小参数量的同时高效利用了特征通道与网络容量,使得网络仍保持较高的精度27。表 1 展示了改进 ShuffleNetV2 结构,本文将原结构中最大池化卷积层采用深度可分离卷积进行替换,实现了通道和区域的分离,增强了网络的特征提取能力同时也降低了参数量;使用全局池化层替换原结构中的全
22、连接层进行特征融合,保留了前面卷积层提取到的空间信息,提升了网络的泛化能力。2.2Transformer 自注意力模块的融入Transformer 整个网络结构由自注意力模块和前馈神经网络组成。Transformer 采用自注意力机制,将序列中的任意两个位置之间的距离缩小为一个定值,具有更好的并行性,符合现有的 GPU 框架28。本文在改进 ShuffleNetV2 中引入 Transformer 自注意力模块,与原始网络相比,添加 Transformer 模块邵小强等:改进 YOLOv5s 和 DeepSORT 的井下人员检测及跟踪算法2023年第10期293可以提取到更加丰富的图像全局信息
23、与潜在的特征信息,提升了模型的泛化能力。本文融入的 Transformer 块结构图如图 2 所示,其主要由以下 3 部分构成。表 1 改进 ShuffleNetV2 结构Table 1 Improve the structural ShuffleNetV2层数输出大小核大小步长重复使用次数通道数Image2242243Conv1112112332124DWconv5656332124Stage2282821116Stage2282813116Stage3141421232Stage3141417232Stage47721464Stage47713464Conv57711111024Globa
24、lpooling1177高效自注意力层(EfficientSelf-Attention)可以通过图像形状重塑,缩短远距离特征依赖间距,使网络更加全面地捕获图像特征信息29。自注意力公式如式(1)所示。Attention(Q,K,V)=softmax(QKTdk)V(1)(Wq,Wk,Wv)dk式中,为权重矩阵,负责将 X 映射为语义更深的特征向量 Q,K,V,而为特征向量长度。高效自注意力层通过位置编码来确定图像的上下文信息,输出图像的分辨率是固定的,当测试集图像与训练集图像的分辨率不同时,会采用插值处理来保证图像尺度一致,但是这样会影响模型的准确率30。针对此问题,本文在高效自注意力层后连接
25、混合前馈网络(MixFeedforwardNetwork,Mix-FFN)来弥补插值处理对泄露位置信息的影响。混合前馈网络计算公式如式(2)、式(3)所示:xout1=Conv(MLP(Norm(xin)(2)xout=MLP(GELU(xout1)+xin(3)xin式中,为上层输出;Norm 为归一化处理;MLP 为多层感知机;GELU 代表激活函数。InputEfficientself-attentionReshapePositional encodingNormGELUMLPMLPOBCOutputMix Feedforward Network33 conv图2Transformer块
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 改进 YOLOv5s DeepSORT 井下 人员 检测 跟踪 算法