分享赚钱赏收藏举报版权申诉 / 11

立即下载加入VIP,免费下载

当前位置：首页 > 学术论文 > 综合论文 > 改进YOLOv5s和DeepSORT的井下人员检测及跟踪算法.pdf

改进YOLOv5s和DeepSORT的井下人员检测及跟踪算法.pdf

上传人：爱文献爱资料

文档编号：21772887

上传时间：2024-04-28

格式：PDF

页数：11

大小：2.88MB

《改进YOLOv5s和DeepSORT的井下人员检测及跟踪算法.pdf》由会员分享，可在线阅读，更多相关《改进YOLOv5s和DeepSORT的井下人员检测及跟踪算法.pdf（11页珍藏版）》请在文库网上搜索。

1、改进 YOLOv5s 和 DeepSORT 的井下人员检测及跟踪算法邵小强，李鑫，杨涛，杨永德，刘士博，原泽文（西安科技大学电气与控制工程学院,陕西西安710054）摘要：矿井移动目标的实时监测及跟踪系统是建设智慧矿山必不可少的内容，井下巡检机器人的出现可以实现对作业人员的实时监测，但是井下光照不均、煤尘干扰等因素的存在导致传统图像检测算法无法准确检测出作业人员。基于此提出一种可部署于井下巡检机器人的改进 YOLOv5s 和 Deep-SORT 的井下人员检测及跟踪算法。首先利用监控摄像头与巡检机器人所录视频制作数据集，然后使用改进 YOLOv5s 网络对井下人员进行识别：考虑到井下人员检测及

2、跟踪算法包含复杂的网络结构和庞大的参数体量，限制了检测模型的响应速度，使用改进轻量化网络 ShuffleNetV2 替代原 YOLOv5s主干网络 CSP-Darknet53。同时，为减少图像中复杂背景的干扰，提升作业人员的关注度，将 Trans-former 自注意力模块融入改进 ShuffleNetV2。其次，为了使多尺度特征能够有效融合且使得推理信息能够有效传输，将 Neck中 FPN+PAN 结构替换为 BiFPN 结构。接着利用改进 DeepSORT 对人员进行编码追踪：考虑到井下环境黑暗，照度低，无纹理性，DeepSORT 难以有效提取到人员的外观信息，于是采用更深层卷积替换 De

3、epSORT 中小型残差网络来强化 DeepSORT 的外观信息提取能力。最后通过公开行人数据集及自建井下人员检测及跟踪数据集对本文改进算法进行验证，结果表明：改进的检测模型相比于原 YOLOv5s 模型平均检测精度提高了 5.2%，参数量减少了 41%，速度提升了 21%；改进 YOLOv5s-DeepSORT 的井下人员跟踪方法精度达到了 89.17%，速度达到了 67FPS，可以有效部署于井下巡检机器人实现作业人员的实时检测及跟踪。关键词：井下巡检机器人；YOLOv5s；轻量化；DeepSORT；实时检测及跟踪中图分类号：TD76文献标志码：A文章编号：02532336（2023）100

4、29111Underground personnel detection and tracking based on improvedYOLOv5s and DeepSORTSHAOXiaoqiang,LIXin,YANGTao,YANGYongde,LIUShibo,YUANZewen（College of Electrical and Control Engineering,Xian University of Science and Technology,Xian 710054,China）Abstract:Thereal-timemonitoringandtrackingsystemo

5、fminemovingtargetsisanessentialpartoftheconstructionofsmartmines.Theappearanceofdownholeinspectionrobotscanrealizethereal-timemonitoringofoperators,buttheexistenceofunevenlighting,coaldustinterferenceandotherfactorsleadtothetraditionalimagedetectionalgorithmcannotaccuratelydetectoperators.Basedonthi

6、s,thispa-perproposesanimprovedYOLOv5sandDeepSORTalgorithmfordownholepersonneldetectionandtrackingthatcanbedeployedindownholeinspectionrobots.Firstly,thedatasetwasmadebyusingthevideorecordedbythesurveillancecameraandinspectionrobot,andthentheimprovedYOLOv5snetworkwasusedtoidentifytheundergroundperson

7、nel:Consideringthatthedetectionandtrackingal-gorithmfordownholepersonnelcontainscomplexnetworkstructureandhugeparametervolume,whichlimitstheresponsespeedofthedetectionmodel,thispaperusesanimprovedlightweightnetworkShuffleNetV2toreplacetheoriginalYOLOv5sbackbonenetworkCSP-收稿日期：20221116责任编辑：周子博DOI：10.

8、13199/ki.cst.2022-1933基金项目：国家自然科学基金资助项目(52174198)作者简介：邵小强（1976），男，陕西商州人，副教授，博士。E-mail：通讯作者：李鑫（1998），男，山西太原人，硕士研究生。E-mail：第51卷第10期煤炭科学技术Vol.51No.102023年10月CoalScienceandTechnologyOct.2023邵小强，李鑫，杨涛，等.改进 YOLOv5s 和 DeepSORT 的井下人员检测及跟踪算法J.煤炭科学技术，2023，51（10）：291301.SHAOXiaoqiang，LIXin，YANGTao，et al.Underg

9、roundpersonneldetectionandtrackingbasedonimprovedYOLOv5sandDeepSORTJ.CoalScienceandTechnology，2023，51（10）：291301.291Darknet53.Meanwhile,inordertoreducetheinterferenceofcompleximagebackgroundandimprovetheattentionofoperators,Trans-formerself-attentionmoduleisintegratedintotheShuffleNetV2.Secondly,the

10、FPN+PANstructureinNeckisreplacedbyBiFPNstruc-tureinordertoeffectivelyfusemulti-scalefeaturesandeffectivelytransmitinferenceinformation.Then,improvedDeepSORTwasusedtoencodeandtrackpersonnel:consideringthattheundergroundenvironmentwasdark,withlowilluminationandnotexture,itwasdiffi-cultforDeepSORTtoeff

11、ectivelyextractpersonnelsappearanceinformation,soDeepSORTssmallandmediumresidualnetworkwasre-placedbydeeperconvolutiontoenhanceDeepSORTsappearanceinformationextractionability.Finally,theimprovedalgorithmisveri-fiedbyopenpedestriandatasetandself-builtundergroundpersonneldetectionandtrackingdataset.Th

12、eresultsshowthatcomparedwiththeoriginalYOLOv5smodel,theaveragedetectionaccuracyoftheimproveddetectionmodelisincreasedby5.2%,thenumberofpara-metersisreducedby41%,andthespeedisincreasedby21%.TheimprovedYOLOv5s-DeepSORTdownholepersonneltrackingmethodhasaprecisionof89.17%andaspeedof67FPS,whichcanbeeffec

13、tivelydeployedindownholeinspectionrobotstorealizereal-timede-tectionandtrackingofoperators.Key words:downholeinspectionrobot；YOLOv5s；Lightweight；DeepSORT；Real-timedetectionandtracking0引言为了扎实推进智慧矿山的建设，提升企业整体的信息化、数字化水平，对井下监控系统与巡检机器人的检测及跟踪能力进行全面升级是十分必要的。国家煤矿安监局最新出台的煤矿井下单班作业人数限员规定将矿井按生产能力分为 7 档，对于各档次矿井下

14、单班作业人数及采掘工作面作业人数做出限制。于是对井下人员进行实时跟踪及统计是避免发生安全事故的有效手段。但井下工作环境存在着光照不均，煤尘干扰严重等问题，导致工作人员无法长时间有效对监控视频进行多场景监控1，且定点监控覆盖面有限。因此，使用巡检机器人取代工作人员进行实时监控对于减轻职工工作强度，降低岗位安全风险，实现企业减人增效和建设智慧矿山有着积极的作用2。当今目标检测算法分为 2 大类：传统机器学习与深度神经网络。传统机器学习算法分为三部分：滑动窗口、特征提取、分类器3。此类算法针对性低、时间复杂度高、存在窗口冗余4；并且手工设计的特征鲁棒性差、泛化能力弱5，这导致传统机器学习算法逐渐被深

15、度学习算法所取代6。李若熙等7通过YOLOv48算法进行井下人员检测，在寻找目标中心点时引入聚类分析算法，提升了模型的特征提取能力。杨世超9通过 Faster-RCNN10算法进行井下人员检测，将井下监控采集的图像输入到检测模型中提取特征，利用区域建议网络和感兴趣区域池化得到目标的特征图，最后通过全连接层得到目标的精确位置。董昕宇等11通过 SSD12算法构建了一种井下人员检测模型，采用深度可分离卷积模块和倒置残差模块构建轻量化模型，提升了模型的检测速度。陈伟等13提出一种基于注意力机制的无监督矿井人员跟踪算法，结合相关滤波和孪生网络在跟踪任务的优势，构建轻量化目标跟踪模型。以上文献都是利用深

16、度学习算法实现井下人员检测与跟踪，但是当出现目标遮挡时，检测效果均不佳；同时缺少对井下人员编码统计的能力；而且模型参数量较大，检测速率也有待提高14。针对上述问题，基于YOLOv5s15和DeepSORT16模型进行改进，使用改进轻量化网络ShuffleNetV217替代 YOLOv5s 主干网络 CSP-Darknet5318，使得模型在保持精度的同时降低了计算量。同时在改进ShuffleNetV2 中添加 Transformer19自注意力模块来强化模型深浅特征的全局提取能力。接着使用 Bi-FPN20结构替换原 Neck 结构，使多尺度特征能够有效融合。最后使用更深层卷积强化 DeepS

17、ORT 的外观信息提取能力，有效的提取图像的全局特征和深层信息，减少了目标编码切换的次数。实验结果表明，改进后的模型有效解决了人员遮挡时检测效果不佳及编码频繁切换的问题。1YOLOv5s 模型YOLOv5 是当前深度学习主流的 One-Stage结构目标检测网络，共有 4 个版本：YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x。考虑到井下巡检机器人的轻量化设计，本文采用深度最小，特征图宽度最小的网络 Yolov5s。其分为输入端 Input、主干网络 Backbone、颈部网络 Neck、输出端 Head 四部分。输入端通过 Mosaic 数据增强、自适应锚框计算、自适应图片缩

18、放，使得模型适用于各种尺寸大小图像的输入的同时丰富了数据集，提升了网络的泛化能力。主干网络包含：焦点层(Focus)，Focus 结构在之前的 YOLO 系列21-23,8中没有引入，它直接对输入的图像进行切片操作，使得图片下采样操作时，在不发生信息丢失的情况下，让特征提取更充分24；跨2023年第10期煤炭科学技术第51卷292阶段局部网络层(CrossStagePartialNetwork，CSP)，CSP25结构是为了解决推理过程中计算量过大的问题；空间金字塔池化(SpatialPyramidPooling，SPP)，SPP26结构能将任意大小的特征图转换成固定大小的特征向量。Neck

19、中采用的是 FPN+PAN 结构，负责对特征进行多尺度融合。Head 输出端负责最终的预测输出，使用 GIOU 损失函数作为位置回归损失函数，交叉熵损失函数作为类别损失函数，其作用是在不同尺度的特征图上预测不同大小的目标。2改进 YOLOv5s 井下人员检测算法提出的井下人员检测框架如图 1 所示。首先将井下巡检机器人所采集的图像逐帧输入到改进YOLOv5s 中进行训练，从而获取到网络的训练权重，最后利用测试集图像对本文改进的目标检测算法进行验证。CBS=ConvBNSiLURes Unit=CBSCBSaddSPP=CBSMaxpoolMaxpoolMaxpoolConcatCBSC3=CB

20、SRes UnitConvConvConcatBNSiLUCBSInputCBSMaxpoolShuffleNetv2Unit2ShuffleNetv2Unit1*3TransformerShuffleNetv2Unit2ShuffleNetv2Unit1*7TransformerShuffleNetv2Unit2ShuffleNetv2Unit1*3SPPTransformerConcatC3Conv上采样ConvC3ConcatConv上采样ConvC3ConvConvConcatConcatC3ConvBackboneNeckPrediction图1本文目标检测算法框架Fig.1Dete

21、ctionframeworkoftheproposedalgorithm2.1主干网络的替换由于 YOLOv5s 具有较大的参数量，对于硬件成本要求较高，难以部署在小型的嵌入式设备或者移动端设备。因此使用轻量化网络 ShuffleNetV2 代替原主干网络 CSP-Darknet53，通过深度可分离卷积来代替传统卷积减小参数量的同时高效利用了特征通道与网络容量，使得网络仍保持较高的精度27。表 1 展示了改进 ShuffleNetV2 结构，本文将原结构中最大池化卷积层采用深度可分离卷积进行替换，实现了通道和区域的分离，增强了网络的特征提取能力同时也降低了参数量；使用全局池化层替换原结构中的全

22、连接层进行特征融合，保留了前面卷积层提取到的空间信息，提升了网络的泛化能力。2.2Transformer 自注意力模块的融入Transformer 整个网络结构由自注意力模块和前馈神经网络组成。Transformer 采用自注意力机制，将序列中的任意两个位置之间的距离缩小为一个定值，具有更好的并行性，符合现有的 GPU 框架28。本文在改进 ShuffleNetV2 中引入 Transformer 自注意力模块，与原始网络相比，添加 Transformer 模块邵小强等：改进 YOLOv5s 和 DeepSORT 的井下人员检测及跟踪算法2023年第10期293可以提取到更加丰富的图像全局信息

23、与潜在的特征信息，提升了模型的泛化能力。本文融入的 Transformer 块结构图如图 2 所示，其主要由以下 3 部分构成。表 1 改进 ShuffleNetV2 结构Table 1 Improve the structural ShuffleNetV2层数输出大小核大小步长重复使用次数通道数Image2242243Conv1112112332124DWconv5656332124Stage2282821116Stage2282813116Stage3141421232Stage3141417232Stage47721464Stage47713464Conv57711111024Globa

24、lpooling1177高效自注意力层(EfficientSelf-Attention)可以通过图像形状重塑，缩短远距离特征依赖间距，使网络更加全面地捕获图像特征信息29。自注意力公式如式(1)所示。Attention(Q,K,V)=softmax(QKTdk)V（1）(Wq,Wk,Wv)dk式中，为权重矩阵，负责将 X 映射为语义更深的特征向量 Q，K，V，而为特征向量长度。高效自注意力层通过位置编码来确定图像的上下文信息，输出图像的分辨率是固定的，当测试集图像与训练集图像的分辨率不同时，会采用插值处理来保证图像尺度一致，但是这样会影响模型的准确率30。针对此问题，本文在高效自注意力层后连接

25、混合前馈网络(MixFeedforwardNetwork，Mix-FFN)来弥补插值处理对泄露位置信息的影响。混合前馈网络计算公式如式(2)、式(3)所示：xout1=Conv(MLP(Norm(xin)（2）xout=MLP(GELU(xout1)+xin（3）xin式中，为上层输出；Norm 为归一化处理；MLP 为多层感知机；GELU 代表激活函数。InputEfficientself-attentionReshapePositional encodingNormGELUMLPMLPOBCOutputMix Feedforward Network33 conv图2Transformer块

26、结构Fig.2Transformerblockstructure重叠块压缩层(OverlappingBlockCompression，OBC)用于压缩图像尺寸和改变图像通道数，保留尺度稳定的特征，简化模型复杂度和降低冗余信息。2.3多尺度特征融合网络原始 YOLOv5s 的 Neck 部分采用的是 FPN+PAN 结构，FPN 是自顶向下，将高层的强语义特征向底层传递，增强了整个金字塔的语义信息，但是对定位信息没有传递。PAN 就是在 FPN 的后面添加一个自底向上的路径，对 FPN 进行补充，将底层的强定位信息传递上去。但是该结构的融合方式是将所有的结构图转换为相同大小后进行级联，没有将不同

27、尺度之间的特征充分利用，使得最终的目标检测精度未达到最优。因此，本文采用一种更为高效的 Bi-FPN 特征融合结构进行替代。其结构如图 3 所示，相较于原始特征融合结构，BiFPN 能更有效的结合位于低层的定位信息与高层的语义信息，同时在通道叠加时将权重信息考虑进去，实现双向多尺度特征融合，通过不断调参确定不同分辨率的特征重要性，如式(4)所示。Out=ii+jjlni（4）i式中，i 为第 i 个权重；j 为权重总个数；ln 为输入特征；Out 为输出特征；为权重。将主干网络中 Transformer 模块提取出大小不同的特征图通过 BiFPN 进行融合，可以更加有效地融合全局深浅层的信息与

28、关键的局部信息，将第一次下采样得到的特征图与后面的特征图进行跨层连接，使得定位信息能够获取充分，提升了模型小目标的检测性能；在特征融合时删除对模型贡献较低的2023年第10期煤炭科学技术第51卷294节点，在同尺度特征节点间增加跳跃连接，减少了计算量；最终在提高模型精度及泛化能力的同时降低了漏检率且几乎不增加运行成本。P3P4P5P6P7P3P4P5P6P7图3BiFPN 结构Fig.3BiFPNstructure3DeepSORT 多目标跟踪算法及改进使用本文提出的检测模型与改进 DeepSORT 跟踪算法搭配实现对井下人员的跟踪，首先将监测图像输入到改进 Yolov5s 目标检测网络，得到

29、检测结果，然后通过改进 DeepSORT 算法逐帧对人员进行匹配，得到他们的轨迹信息，最后输出跟踪图像。3.1DeepSORT 算法DeepSORT 是针对多目标的跟踪算法，其核心是利用卡尔曼滤波和匈牙利匹配算法，将跟踪结果和检测结果之间的 IOU(IntersectionoverUnion,交并比)作为代价矩阵，实现对移动目标的跟踪。为了跟踪检测模型找出的作业人员，DeepSORT使用 8 维变量 x 来描述作业人员的外观信息和在图像中的运动信息，如式(5)所示。x=(u,v,q,u,v,q)（5）(u,v)q(u,v,q)(u,v,q)式中：为井下人员的中心坐标；为人员检测框的宽高比；为人

30、员检测框的高；为相应的速度信息。DeepSORT 结合井下人员的运动信息与外观信息，使用匈牙利算法对预测框和跟踪框进行匹配，对于人员的运动信息，采用马氏距离描述卡尔曼滤波的预测结果和改进 YOLOv5s 检测结果之间的关联程度，如式(6)所示。d(1)(i,j)=(djyi)TS1i(djyi)（6）djyjSi式中：为第 j 个检测框；为第 i 个检测框的状态向量；为 i 条轨迹之间的标准差矩阵。?rj?=1当井下行人被障碍物长时间遮挡时，外观模型就会发挥作用，此时特征提取网络会对每个检测框计算出一个 128 维特征向量，限制条件为，同时对检测到的每个人员构建一个确定轨迹的 100 帧外观特

31、征向量。通过式(7)计算出这两者间的最小余弦距离。d(2)=(i,j)=min1rTjr(i)k?r(i)k Rk（7）rjrk式中：为检测框对应的特征向量；为 100 帧已成功关联的特征向量。马氏距离在短时预测时提供可靠的目标位置信息，使用外观特征的最小余弦距离可使得遮挡目标重新出现后恢复目标ID，为了使两种度量的优势互补，最终将两种距离进行线性加权作为最终度量，公式如式(8)所示。ci,j=d(1)(i,j)+(1)d(2)(i,j)（8）ci,j式中：为权重系数，若落在指定阈值范围内，则认定实现正确关联。3.2DeepSORT 算法的改进原始 DeepSORT 的外观特征提取采用一个小型

32、的堆叠残差块完成，包含两个卷积层和六个残差网络。该模型在大规模路面行人检测数据集上训练后，可以取得很好的效果，但是井下环境光照不均匀，烟尘干扰严重，导致对井下人员跟踪的效果不理想，于是本文采用高效特征提取架构 OSA(oneshotaggreg-ation)来替代原 DeepSORT 外观模型中的堆叠残差块以强化 DeepSORT 的外观特征提取能力，有效的提取图像中的全局特征和深层信息，达到减少人员编码切换次数的作用，OSA 结构如图 4 所示。输入 Max PoolDconvDconvDconv11 Conv图4OSA 结构Fig.4OSAstructure在外观状态更新时，采用指数平均移

33、动的方式替代特征集合对第 t 帧的第 i 个运动轨迹的外观状态进行更新。如式(9)所示。eti=et1i+(1)fti（9）邵小强等：改进 YOLOv5s 和 DeepSORT 的井下人员检测及跟踪算法2023年第10期295fti式中：为第 t 帧的第 i 个运动轨迹的外观嵌入；为动量项。使用这种方式不仅减少了时间的消耗，同时提高了匹配的质量。4试验与分析4.1试验准备本文采用 Caltech 行人数据集(CaltechPedestri-anDetectionBenchmark)、INRIA 行人数据集(INRIAPersonDataset)及自建井下人员检测及跟踪数据集对所提检测及跟踪算法

34、井下进行验证。1)Caltech 行人数据集:此数据集为目前规模较大的行人数据集，使用车载摄像头录制不同天气状况下 10h 街景，拥有人员遮挡、目标尺度变化大、背景复杂等多种情形，标注超过 25 万帧，35 万个矩形框，2300 个行人。同时注明了不同矩形框之间的时间关系及人员遮挡情况。2)INRIA 行人数据集:此数据集为目前常见的静态人员检测数据集，数据集中人员身处不同光线条件及地点。训练集拥有正样本 1000 张，负样本 1500张，包含 3000 个行人；测试集包含正样本 350 张，负样本 500 张，包含 1200 个行人，该数据集人员以站姿为主且高度均超 100 个像素，图片主要

35、来源于谷歌，故清晰度较高。3)自建井下人员检测及跟踪数据集：采集井下巡检机器人与监控视频拍摄的 10 万帧图像，筛选其中 8000 帧相似程度较低的图像构建数据集。首先使用 ffmpeg 工具将图像按帧切为图片，其中涵盖井下各种环境：光照不均 2267 张、煤尘严重 1568 张、目标遮挡 3891 张、其余环境 1200 张。其次采用Python 编写的 Labelimg 对图片中人员进行标注，自动将人员位置及尺寸生成 xml 文件，最终转为适用于 yolo 系列的 txt 文件，包含每张图片中人员的中心位置(x,y)、高(h)、宽(w)三项信息。如图 5 所示，该数据集包含上万个人工标记的

36、检测框。由于本文算法应用于井下人员的检测及追踪，故数据集中仅含“person”一个类。将图片数量按照 721 分为训练集、验证集和测试集。试验使用平台参数如下：配置参数操作系统Windows10内存容量32GBGPUNVIDIAGeForceRTX3070TiCPUIntel酷睿i712700H模型框架PyTorch1.7.1编程语言Python3.6图5自建井下人员检测及跟踪数据集Fig.5Self-builtdownholepersonneldetectionandtrackingdatasetsMrMpMmMf检测算法评价指标：使用模型参数量、检测时间、召回率、准确率、漏检率，误检率及m

37、AP0.5 作为检测算法的评价指标。Mr=TpTp+FN（10）Mp=TpTp+Fp（11）Mm=FNFN+Tp（12）Mf=FpFp+TN（13）mAP=Tp+TnTp+Tn+Fp（14）TpFNFPTN式中:为被正确检测出的井下人员；为未被检测到的井下人员；为被误检的井下人员；为未被误检的井下人员；mAP 为不同召回率上正确率的平均值。跟踪算法评价指标：1)编码变换次数(IDswitch,IDS)，跟踪过程中人员编号变换及丢失的次数，数值越小说明跟踪效果越好。2)多目标跟踪准确率(MultipleObjectTrackingAccuracy)，用于确定目标数及跟踪过程中误差累计2023年第

38、10期煤炭科学技术第51卷296情况，如式(15)所示。AMOT=1n1tMm+Mf+IDSn1tGTt（15）MmMfIDSGTt式中:为漏检率；为误检率；为编码转换次数；为目标数量；n 为图片数量；t 为第 t 张图片。3)多目标跟踪精度(MultipleObjectTrackingPrecision，PMOT)，用于衡量目标位置的精确程度，如式(16)所示。PMOT=n1t,idt,in1tct（16）dt,ict式中：为目标 i 与标注框间的平均度量距离；为 t帧匹配成功的数目。4)每秒检测帧数(FramesPerSecond,FPS)及模型参数量，体现模型运行的速率及成本。4.2目标

39、检测试验结果与分析将本文算法通过自建井下人员检测及跟踪数据集进行训练，输入图像大小为608608，迭代次数为300，批次大小为16，初始学习率设置为0.01，后150轮的训练学习率降为0.001。动量设置为 0.937，衰减系数为 0.005。训练损失变化如图 6 所示。可以看出模型三类损失函数收敛较快且都收敛于较低值，表明改进算法具有良好的收敛能力与鲁棒性。0.090.080.070.060.050.040.030.020.010损失值020406080100120140迭代次数位置损失置信损失类别损失图6损失函数曲线Fig.6Lossfunctioncurve为了验证本文改进检测算法的有效

40、性以及轻量化主干网络选择的合理性，将本文算法与 YOLOv5s模型和 YOLOv5s-ShuffleNetV2 通过自建井下人员检测及跟踪数据集进行对比。从图 7 中可以看出，原始 YOLOv5s 算法迭代到40 次时，准确率上升到 0.86 左右，最终收敛在 0.87 左右；YOLOv5s-ShuffleNetV2 在迭代到 40 次时，准确率上升到 0.84 左右，最终收敛在 0.85 左右；而本文所提算法在迭代 40 次时，准确率上升到 0.91 左右，最终收敛在0.92 左右，较原始YOLOv5s 模型提升了5.1%。0.90.80.70.60.50.40.30.20.10准确率020

41、406080100120140本文算法YOLOv5sYOLOv5s-shuffIeNetV2迭代次数图7准确率曲线Fig.7Accuracyratecurve从图 8 中可以看出，原始 YOLOv5s 算法在迭代到 40 次时，mAP 上升到 0.85 左右，最终收敛在 0.86左右；YOLOv5s-ShuffleNetV2 在迭代到 40 次时，mAP 上升到 0.85 左右，最终收敛在 0.85 左右；而本文算法的迭代到 40 次时，mAP 上升到 0.89 左右，mAP 最终收敛在 0.90 左右，较原始 YOLOv5s 模型提升了 5.2%。综上所述，本文选取的轻量化网络Sh

42、uffleNetV2 可以使得检测模型保持一定精度的同时降低计算量；轻量化主干的改进、注意力机制的引入以及多尺度的融合对于目标检测性能有着明显的提升，因此，本文检测算法对于井下复杂环境中的人员检测具有良好的精度。0.90.80.70.60.50.40.30.20.10mAP020406080100120140本文算法YOLOv5sYOLOv5s-shuffIeNetV2迭代次数图8mAP 曲线Fig.8mAPcurve在 YOLOv5s 算法的基础上进行了改进轻量化主干网络的替换 ShuffleNetv2、Transformer 自注意力机制模块的融入、Neck 部分进行 BiFPN 的替换。

43、为了检验本文对检测阶段各改进点的有效性，以YOLOv5s 模型为基准，使用消融实验在相同环境下邵小强等：改进 YOLOv5s 和 DeepSORT 的井下人员检测及跟踪算法2023年第10期297进行进行验证，各模型参数设置保持一致，具体消融试验结果见表 2。由表 2 可以看出，原始 YOLOv5s 的主干网络替换后，准确率下降了 1.4%，速率提升了 34%。在模型 2 中添加 Transformer 自注意力模块后，准确率提升了 2.8%。在模型 2 中使用 BiFPN 替代原来的特征融合结构后，准确率提升了 2.1%。在模型 2 中同时添加 Transformer 自注意力机制模块和 B

44、iFPN 模块，准确率提升了 7.4%，平均漏检率下降了 40%，召回率提升了 8.4%，平均误检率下降了 51%。综上所述，单独添加 Transformer 自注意力模块和 BiFPN 模块，井下人员检测性能提升有限，而两种模块组合添加时，井下人员检测性能获得了很大的提升。相比于原始算法，准确率提升了 5.2%；参数量下降了 41%；检测速率提升了 21%，达到 0.0148s/帧；为部署于巡检机器人奠定了基础。表 2 消融试验结果Table 2 Ablation results模型ShuffleNetv2TransformerBiFPN准确率漏检率召回率误检率时间/ms参数量/MB10.8

45、710.3140.7830.02718.913.0920.8590.3220.7940.03012.43.4530.8830.2350.8310.02113.34.1740.8770.2490.8310.01913.74.3450.9230.1900.8610.01314.95.33注：“”表示对应部分已改进。为了验证文中检测算法具有良好的泛化能力，在 2 个公开行人数据集 Caltech 行人数据集、INRIA行人数据集上进行进一步验证，性能指标对比见表 3。通过比较 3 个不同数据集中的性能指标，可以看出文中算法不仅适用于井下人员检测，在目标尺度变化大、背景复杂、光照剧烈等多数场景中人员检

46、测效果也均优于原始 YOLOv5s，因此，具有良好的泛化性与鲁棒性。为了更加直观地体现文中检测算法的效果，选择 Faster-RCNN、YOLOv3、YOLOv4、YOLOv5s4 种主流算法在自建数据集中选取光照不均、煤尘干扰、多目标移动、人员遮挡 4 种场景进行验证，检测结果如图 9 所示。从第一组试验中，可以观察到光照不均严重，Faster-RCNN、YOLOv3、YOLOv4、YOLOv5s 均出现误检的情况，而本文算法使用了 BiFPN结构使得多尺度特征能够有效融合，对于远处小目标检测能够起到了很好的识别作用。从第二组试验中，可以观察到粉尘干扰严重，除文中算法外，其余算法出现漏检、误

47、检的情况，而文中算法由于融合了 Trans-former 自注意力模块强化了模型深浅特征的全局提取能力，提升了目标在复杂环境中的对比度，有效抑制了粉尘的干扰。从第三、四组试验得出，本文算法表 3 多数据集性能指标对比Table 3 Comparison of performance indicators ofmultiple data sets数据集性能指标YOLOv5s本文算法精确率0.7810.849Caltech行人数据集召回率0.6910.733mAP0.7420.792精确率0.8610.881INRIA行人数据集召回率0.7880.791mAP0.8560.890精确率0.8710

48、.923自建数据集召回率0.7830.861mAP0.8640.902(a)原图(b)Faster-RCNN(c)YOLOv3(d)YOLOv4(e)YOLOv5s(f)本文算法2023年第10期煤炭科学技术第51卷298对于井下环境中多目标移动对象及遮挡人员的检测也具有良好的效果。综上所述，文中检测算法在井下各种复杂环境中检测效果良好，与主流目标检测算法相比更适用于井下人员的检测。4.3井下人员跟踪结果与精度分析为了验证文中算法在井下人员多目标跟踪方面的表现，本文通过自建井下人员检测及跟踪数据集上进行验证，以 YOLOv5s-DeepSort 为基准，使用原算法的参数设置，对检测与跟踪阶段进

49、行消融试验来验证文中两阶段改进各自的有效性，结果见表 4。表 4 多目标跟踪结果对比Table 4 Comparison of multi-target tracking results算法AMOT/%PMOT/%IDSFPS参数量/MBYOLOv5s-DeepSORT83.3281.55164125.6改YOLOv5s-DeepSORT87.4786.32137111.19YOLOv5s-改DeepSORT82.3182.4473919.34本文算法89.1787.914675.91由表 4 得出，文中目标检测阶段的改进在有效提升井下人员的检测精度的同时提升了检测速度，而跟踪阶段的改进有效减

50、少了人员编号的转换，可以在出现人员遮挡的情况下有效提升检测的精度。文中检测及跟踪算法最终达到 89.17%的精度；速率达到 67 帧；人员编码改变次数仅 4 次，目标编号改变次数降低了 66.7%；参数量缩减到原始跟踪算法的 23%。可以很好的满足井下人员实时检测及跟踪的需求。为了更加直观展示文中跟踪算法的效果，文中选用戴德 KJXX12C 型防爆矿用巡检机器人进行验证，如图 10a 所示，该装置搭载本安型“双光谱”摄像仪，最小照度达彩色 0.002lux，高粉尘环境下，可通过红外摄像仪辅助采集井下图像。采集与控制系统采用 STM32ZET6 芯片，上位机检测及跟踪主控系统采用 Windows