改进DAB⁃DETR算法的非规则交通对象检测.pdf
《改进DAB⁃DETR算法的非规则交通对象检测.pdf》由会员分享,可在线阅读,更多相关《改进DAB⁃DETR算法的非规则交通对象检测.pdf(8页珍藏版)》请在文库网上搜索。
1、现代电子技术Modern Electronics Technique2023年11月1日第46卷第21期Nov.2023Vol.46 No.210 引 言交通是国民经济的命脉,交通安全与人民群众生命财产安全、社会稳定和长治久安以及国民经济高质量发展密切相关。道路交通事故占交通事故的绝大多数,据统计,近五年我国道路交通事故年均发生接近25万起,年均造成死亡人数超6万人,财产损失近14亿元,且仍处于道路交通事故发展的上升期。因此,本文通过对非规则改进DABDETR算法的非规则交通对象检测林 峰1,2,宁琪琳1,朱智勤2(1.重庆邮电大学 通信与信息工程学院,重庆 400065;2.重庆邮电大学 自
2、动化学院,重庆 400065)摘 要:非规则交通对象主要指任何在车辆行驶过程中可能对车辆行驶起到阻碍作用的物体,例如坑洼、落石、树枝等影响车辆正常驾驶的目标。针对道路中的非规则交通对象检测问题,提出一种基于改进DABDETR算法的非规则交通对象目标检测算法,经过对原始模型结构的分析,发现在图像特征输入编码器前加入绝对位置编码来弥补图像位置信息的缺失,只能隐式地表达特征间的相对位置信息,因此改进DABDETR在Transformer的编码结构中的多头自注意力机制中添加了针对图像的相对位置编码;其次发现在原始训练策略中,对得到的检测定位结果与类别信息进行二分匹配并计算损失值时,只是简单地将定位损失
3、和分类损失加权求和,这样会导致性能下降,所以在训练策略中增加了将分类、定位损失集成在一个统一参数化公式中的AP损失函数。实验结果表明:改进DABDETR算法的检测精度达到了82.00%,比原始模型提高了3.3%,比传统模型Faster RCNN、YOLOv5分别提高了6.20%、7.71%。关键词:非规则交通对象;目标检测;DABDETR算法;相对位置编码;AP损失函数;消融实验中图分类号:TN911.7334;TP751 文献标识码:A 文章编号:1004373X(2023)21014108Irregular traffic object detection by improved DABD
4、ETR algorithmLIN Feng1,2,NING Qilin1,ZHU Zhiqin2(1.School of Communications and Information Engineering,Chongqing University of Posts and Telecommunications,Chongqing 400065,China;2.School of Automation,Chongqing University of Posts and Telecommunications,Chongqing 400065,China)Abstract:Irregular tr
5、affic objects mainly refer to any objects that may play an obstructive role in vehicle driving,such as potholes,falling rocks,tree branches and other objectives that affect the normal driving of vehicles.Therefore,an irregular traffic object detection algorithm based on improved DABDETR(dynamic anch
6、or boxes are better queries for DETR)is proposed.By analyzing the structure of the original model,it is found that the absolute position encoding is added before the image features are input into the encoder to make up for the lack of image location information can only implicitly show the relative
7、location information between features.Therefore,in the improved DAB DETR algorithm,the relative location encoding for images is added to the multiheaded selfattention mechanism in the encoding structure of transformer.When binary matching is carried out on both the obtained detection and positioning
8、 results and the category information and then the loss value is calculated,the localization loss and classification loss are simply weighted and summed,which may lead to decreased performance,so an AP loss function that integrates the classification and localization losses in a unified parameterize
9、d formula is added to the improved strategy.The experimental results show that the detection accuracy of the improved DABDETR algorithm can reach 82.00%,which is 3.3%higher than that of the original model,and 6.20%and 7.71%higher than those of the traditional models Faster RCNN and YOLOv5,respective
10、ly.Keywords:irregular traffic object;object detection;DABDETR algorithm;relative position encoding;AP loss function;ablation experimentDOI:10.16652/j.issn.1004373x.2023.21.026引用格式:林峰,宁琪琳,朱智勤.改进DABDETR算法的非规则交通对象检测J.现代电子技术,2023,46(21):141148.收稿日期:20230510 修回日期:20230529基金项目:重庆市教委“成渝地区双城经济圈建设”科技创新项目(KJC
11、XZD2020028)141141现代电子技术2023年第46卷交通对象(任何在车辆行驶过程中可能对车辆行驶起到阻碍作用的物体)检测的研究来减少道路交通事故的发生。目前对于道路上障碍物的检测和识别主要依靠毫米波雷达、激光雷达以及机器视觉。毫米波雷达的结构简单、价格比较便宜,但感知距离过短、分辨率较低;激光雷达精度高、分辨力强,但价格比较昂贵,易受干扰;而机器视觉通过摄像头采集图像并处理图像信息来实现人的视觉功能,采集图像所用摄像头的成本低,各类算法发展迅速,已经在实时性、精度等方面达到较高的水平1。因此本文使用机器视觉中目标检测的方法实现对非规则交通对象的检测。当前的目标检测算法主要分为传统方
12、法和基于深度学习的方法。传统的目标检测方法是在采集的图像上利用不同比例的滑动窗口提取候选区域;再利用人工设计的特征算子如 SIFT2、Harr3和 HOG4等聚合图像特征;最后再对特征进行分类。但是这种方法已经落后于当下流行的深度学习模型,它最大的缺陷就是泛化性能差,人工设计的特征算子受外观背景等因素的影响,不能适用多种场景。基于深度学习的目标检测方法主要分为两阶段目标检测器 RCNN 系列57、单阶段目标检测 器 YOLO8、SSD9、端 到 端 目 标 检 测 器 DETR10(Detection Transformer)等。RCNN系列的思想主要是:首先针对图像生成N个候选框,再对候选框
13、进行特征提取,最后进行分类和回归;YOLO系列直接将图像分成NN大小的子区域,并预测每个子区域存在物体的概率、类别以及位置偏移量,在具有较高检测精度的同时,也具有较快的运算速度。然而,RCNN系列和YOLO系列都需要复杂的后处理操作,它们在检测阶段会生成许多锚点框,但一个物体只需要一个检测框,这样就需要通过非极大值抑制(NMS)11的方法去除冗余的框,在网络训练过程中需要复杂的调参。DETR是 Facebook AI的研究人员在 2020年提出的一种新的目标检测范式,很大程度上解决了上述 RCNN系列和 YOLO系列的问题,其结构如图 1所示。图1 DETR的整体架构但是 DETR作为一种新的
14、目标检测思路,还拥有不少的问题,例如训练收敛极其缓慢、查询冗余等,后来的研究者针对这些问题,不断地优化改进,涌现很多优秀的方法,例如 Deformable DETR12、Conditional DETR13、DABDETR14等。其中 DABDETR 将动态框的中心点坐标和宽高信息组成四维信息作为目标查询,并在层之间不断更新,提高了模型的定位能力和对目标尺度信息的建模能力。因此本文在基于 Transformer15的端到端目标检测方法 DABDETR(Dynamic Anchor Boxes Are Better Queries for DETR)的基础上进行改进,简化检测过程并提升对非规则交
15、通对象的检测精度。1 DABDETR算法原理DABDETR是由清华大学、香港科技大学等研究人员提出的将box信息作为DETR中Transformer解码器查询机制中的查询并结合上下文查询进行双重查询的算法,通过这些查询来寻找与 box、上下文有相似性的目标,并逐层动态更新,这样的改进相当于添加了明确的位置先验和尺度信息,缩短了原先的随机初始化查询不断更新迭代从0查询目标位置的过程,极大地加快了收敛速度。编码器中的查询机制如图2所示。在解码器中有两个注意力模块16,每个模块都需要查询、键和值进行基于注意力的特征聚合,但是这两个注意力模块对应的三个输入是不同的。用以下公式来表示多头自注意力的三个输
16、入:PE()Aq=PE()xq,yq,wq,hq=Cat()PE()xq,PE()yq,PE()wq,PE()hq(1)Qq=Cq+MLP()Cat()PE()xq,PE()yq,PE()wq,PE()hq(2)Kq=Cq+MLP()Cat()PE()xq,PE()yq,PE()wq,PE()hq(3)Vq=Cq(4)式中:Aq代表查询中的其中一个 box信息;PE代表对输入查询进行正弦位置编码;Cat指进行维度方向上的拼接;Cq指上下文查询。对于交叉注意力则用以下公式表示:142第21期Qq=Cat()Cq,PE()xq,yq MLP()csq()CqKx,y=Cat()Fx,y,PE()x
17、,y,Vx,y=Fx,y (5)式 中:Fx,y是 由 编 码 器 输 出()x,y位 置 的 图 像 特 征;MLP()csq是指针对多头自注意力的输出进行操作;查询和键的PE操作都是针对二维坐标。图2 DABDETR中解码器的结构DABDETR模型的损失由分类损失、目标边界框损失两个部分组成,具体的损失公式为:L(y,y)=i=1N-lg p()i()ci+ci Lbox()bi,b()i(6)式中:是对输出集合和真实值进行二分匹配排序后得到的最低匹配代价;ci为类别标签;bi表示真实框的向量;是权重系数。分类损失是交叉熵损失,目标边界框的损失由L1损失和IoU损失17进行线性组合,其公式
18、为:Lbox()bi,b()i=L1bi-b()i1+IoULIoU()bi,b()i(7)2 改进后的DABDETR检测模型在使用DABDETR进行训练时主要发现两个问题:第一,在图像特征输入编码器前加入绝对位置编码来弥补图像位置信息的缺失,这个操作只能隐式地表达特征间的相对位置信息,而相对位置信息对于Transformer结构去捕获输入图像特征序列的排序非常重要18;第二,对模型得到的目标定位与类别信息的集合进行二分匹配并计算损失值的这个过程中,只是简单地将定位损失和分类损失加权求和,这样可能导致性能下降。本文对这两个问题在以下方面进行了改进:在编码器的自注意力机制中增加了相对位置编码,考
19、虑了查询与相对位置的交互;在计算损失过程中,增加了将定位和分类 AP损失统一表示的参数化损失函数(paploss),并采用自动参数搜索算法搜索最佳参数,改进后的模型结构如图3所示。图3 改进后的DABDETR总体结构林 峰,等:改进DABDETR算法的非规则交通对象检测143现代电子技术2023年第46卷2.1 相对位置编码相对位置编码通过在自注意力机制中加入输入特征间的相对位置信息来提升模型的表达能力。自我注意力机制在Transformer中扮演着重要的作用,它将一个查询和一组键值映射到一个输出,具体映射公式为:zi=j=1nij(xjWV)(8)式中:zi是由输入序列xj与使用softma
20、x计算得来的ij权重系数相乘求和得到的;WV是参数矩阵。ij的计算公式为:ij=exp(eij)k=1nexp(eik)(9)式中,eij通过缩放点积比较两个输入元素计算得到:eij=()xiWQ()xjWKTdz (10)式中:WQ、WK是参数矩阵。文献1920提出的相对位置编码都依赖于输入,因此本文在编码器的多头自注意力结构中添加了文献21提出的一种上下文模式的方向性图像相对位置编码。图 4显示了针对查询进行二维相对位置编码的自注意力模块。这种方法增加了相对位置编码与上下文查询的交互,这种交互可以用以下公式表示:eij=()xiWQ()xjWKT+()xiWQrTijdz (11)式中ri
21、j是可学习的相对偏置向量,通过定向映射的方式计算。将两个方向上的位置偏移构成索引对进而产生位置编码:rij=PIx()i,j,Iy()i,jIx()i,j=g()xi-xj,Iy()i,j=g()yi-yj(12)式中:g()是将相对位置映射为权重的分段函数;P用来存储相对位置权重;Ix()i,j,Iy()i,j是P的二维索引。图4 针对查询的二维相对位置编码2.2 参数化AP损失在原始模型的训练中分类和定位任务是由两个独立损失驱动的,这种差别可能导致性能的下降,为解决这种不平衡问题,文献22提出了一种新的损失框架APloss,它直接使用排序方法来代替分类损失,促使正样本预测框的得分在负样本得
22、分序列中尽可能靠前。但是这种手工设计的梯度对于驱动网络训练来说是次优的。因此,本文在计算损失过程中增加了将分类和定位损失集成在一个统一参数化公式中的 AP 损失函数23,公式如下:L=-1|Pi f()l()bi;1-j ,j if()sj-si;2()1-f()l()bj;31+j ,j if()sj-si;4 f()l()bj;5(13)假设模型每个类别输出N个检测框,这个集合用=()bi,siNi=1表示,这些检测框都会尝试与真实框进行匹配,被匹配到真实框的预测框集合称为正样本集合O,在式(13)中,将l()bi定义为第i个检测框的定位分数:l()bi=IoU()bi,bi*,i O0,
23、other (14)式中bi*指匹配到的真实框。f()x;是分段可微分函数,假设有M段,第k段被定义为:fk()x;=yk+1-ykxk+1-xk()x-xk+yk,xk x xk+1,k=0,1,2,M-1 (15)式(15)这一段函数被(xk,yk)和(xk+1,yk+1)这两个点控制,而这些点的坐标构成了集合,参数化 AP损失的最佳参数集是通过优化 AP指标在验证集上的性能而找到的。的巨大参数空间使得手动确定所需的参数是不切实际的,所以最后采用基于 PPO224强化学习的算法对参数集进行搜索,将搜索的最佳参数代入进行训练。3 实验结果与分析3.1 实验环境本文的所有实验在表1的环境中进行
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 改进 DAB DETR 算法 规则 交通 对象 检测