改进BiSeNetV1实时模型的岩屑图像识别.pdf
《改进BiSeNetV1实时模型的岩屑图像识别.pdf》由会员分享,可在线阅读,更多相关《改进BiSeNetV1实时模型的岩屑图像识别.pdf(9页珍藏版)》请在文库网上搜索。
1、改进 BiSeNetV1 实时模型的岩屑图像识别孙杰1,滕奇志1,罗崇兴1,何海波2,何小海11(四川大学电子信息学院,成都610065)2(成都西图科技有限公司,成都610041)通信作者:何小海,E-mail:摘要:在图像分割识别领域,现有的深度学习方法大多使用高精度语义分割方法来实现,存在着网络推理速度慢、计算量大、难以实际应用等问题.借助于表现较好的 BiSeNetV1 实时网络模型,通过扩展的空间路径卷积结构、空间金字塔注意力机制(SPARM)和简化的注意力特征融合模块(S-iAFF)等改进策略,设计一种用于岩屑图像分割领域的 BiSeNet_SPARM_S-iAFF 实时网络.扩展
2、的空间路径卷积结构可以获取更丰富的岩屑图像空间特征,上下文路径使用优化的空间金字塔注意力机制(SPARM)进一步细化高层语义特征提取,在特征融合阶段使用简化注意力特征融合(S-iAFF)加强低层空间与高层语义特征的融合程度.实验结果表明,BiSeNet_SPARM_S-iAFF 网络在 RockCuttings_Oil 岩屑数据集上的平均交并比(mIoU)为 64.91%,相较于 BiSeNetV1 网络提高了 2.68%;另外改进后的网络在精度上接近大部分高精度语义分割方法,同时参数量大幅度减少、推理速度有着明显的提升.关键词:岩屑图像;语义分割;BiSeNetV1 网络;空间金字塔注意力;
3、迭代注意力特征融合;深度学习;卷积神经网络引用格式:孙杰,滕奇志,罗崇兴,何海波,何小海.改进 BiSeNetV1 实时模型的岩屑图像识别.计算机系统应用,2023,32(10):4553.http:/www.c-s- of Cuttings Images Based on Improved BiSeNetV1 Real-time ModelSUNJie1,TENGQi-Zhi1,LUOChong-Xing1,HEHai-Bo2,HEXiao-Hai11(CollegeofElectronicsandInformationEngineering,SichuanUniversity,Chengd
4、u610065,China)2(ChengduXituTechnologyCo.Ltd.,Chengdu610041,China)Abstract:Inthefieldofimagesegmentationandidentification,theexistingdeeplearningmethodsmostlyperformtasksbyhigh-precisionsemanticsegmentationmethods,whichleadtoaslownetworkinferencespeed,largeamountofcalculation,anddifficultactualapplic
5、ation.Areal-timenetworkmodelwithbetterperformance,namelyBiSeNetV1isused,andtheextendedspatialpathconvolutionstructure,spatialpyramidattentionmechanism(SPARM),simplifiediterativeattentionfeaturefusion(S-iAFF)module,andotheroptimizationstrategiesareapplied.Asaresult,areal-timeBiSeNet_SPARM_S-iAFFnetwo
6、rkisdesignedforrockdebrisimagesegmentation.Theextendedspatialpathconvolutionstructurecanobtainmoreabundantspatialfeaturesofrockdebrisimages.ThecontextpathusestheoptimizedSPARMtofurtherrefinehigh-levelsemanticfeatureextraction.Finally,S-iAFFisusedtoenhancethefusiondegreebetweenlow-levelspatialandhigh
7、-levelsemanticfeaturesinthefeaturefusionstage.Theexperimentalresultsindicatethatthemeanintersectionoverunion(mIoU)oftheBiSeNet_SPARM_S-iAFFnetworkontheRockCuttings_Oildatasetis64.91%,whichis2.68%higherthanthatoftheBiSeNetV1network,andtheprecisionoftheimprovednetworkisclosetothatofthemosthigh-precisi
8、onsemanticsegmentationmethods,whilethenumberofparametersisgreatlyreduced,andtheinferencespeedissignificantlyimproved.Key words:cuttingsimage;semanticsegmentation;BiSeNetV1network;spatialpyramidattention;iterativeattentionfeaturefusion;deeplearning;convolutionalneuralnetwork(CNN)计算机系统应用ISSN1003-3254,
9、CODENCSAOBNE-mail:ComputerSystems&Applications,2023,32(10):4553doi:10.15888/ki.csa.009245http:/www.c-s-中国科学院软件研究所版权所有.Tel:+86-10-62661041基金项目:国家自然科学基金(62071315)收稿时间:2023-03-13;修改时间:2023-04-20;采用时间:2023-04-27;csa 在线出版时间:2023-07-21CNKI 网络首发时间:2023-07-24SpecialIssue专论综述45近年来随着生活水平的提高,人类对能源的需求日益增加,其中石油作
10、为国家经济发展的重要能源,对其进行开发和利用的相关技术也日益重要,石油勘探技术中,通过钻井作业对地质参数分析可以快速判断该地的石油含量,其中岩屑识别技术可作为判断地层岩性的重要手段1,2.工作人员从井口捞取初始岩屑样本,通过清洗等一系列处理过程得到利于识别的岩屑样本,最终通过图像采集得到岩屑颗粒图像用于后续的识别.随着计算机技术的发展,深度学习逐渐代替传统图像算法应用到石油地质研究的分类识别上.特别是通过语义分割算法的应用大大提高了岩屑图像的分类效果,同时减少了人工识别岩屑的时间.语义分割是一种典型的计算机视觉研究方向,其基于像素级的分类方式能够很好地关联不同场景下每个像素的标签类别,最终通过
11、不同标注结果实现像素级的分类任务,如FCN 全卷积网络3、轻量型 ENet 语义分割网络4等均可实现对图像像素级的分类,它们广泛应用于视频监控、医学图像处理、岩屑图像处理等领域.语义分割的发展是逐步进行的,随着各种模型的涌现,在经典的训练场景下分割的精度也越来越高,然而大部分训练精度的提升是以参数量、训练时间的增加为代价的,特别是精度达到一定的高度后,模型精度的微小提升往往会导致训练成本(如计算量、时间、占用内存)成倍地增加.基于这种情况,近年来实时语义分割的发展逐渐得到人们的重视,在某些特定的应用场景下,实时语义分割的研究目标主要是在尽量保持分割精度的情况下简化训练模型的参数量、占用内存等,
12、设计出低延迟、高效率、分割精度表现良好的模型5,6.大部分的高精度方法在语义分割的结果上占据较大优势,如文献 7 的 DANet 模型在不同的应用场景中都有着优秀的表现,但从推理速度的角度来看,实时语义分割的优势较为明显.当处理任务用于移动设备上时更加关注的是模型的实时性,此时就需要在精度和实时性上进行衡量.近年来具有挑战性的实时语义分割任务出现许多实际的应用与研究,如文献 8 提出一种快速实现高质量分割的图像级联网络 ICNet,文献 9 提出一种同时保持效率与准确性的 ERFNet 深层架构,文献 10 中的 BiSeNetV1 和文献 11 中的BiSeNetV2 提出一种实时的双边分割
13、网络架构,文献 12 提出一种基于高效空间金字塔的 ESPNet 实时分割模型,文献 13 提出一种轻量级上下文引导网络CGNet,文献 14 提出一种基于高分辨率图像数据的FastSCNN 超实时语义分割模型.不同网络对特定任务的适应性差异很大,某些应用场景下实时网络识别精度可能会接近甚至高于某些高精度方法,实时分割网络往往就是在这种情况下展现出巨大的优势.1BiSeNetV1 网络BiSeNetV110是一种通过空间路径和上下文路径分别提取图像低级空间特征和高级上下文语义特征的基本架构,其优势在于同时计算两条路径来提高效率.首先空间路径使用 3 层步长为 2 的卷积编码丰富的空间信息,同时
14、上下文路径利用预先训练好的 Xception15等轻量级模型提供了较大的接受域,该接受域编码高级语义上下文信息,上下文路径中使用注意力细化模块 ARM 细化每个阶段的特征,ARM 使用全局平均池来捕获全局上下文,并计算注意向量指导特征学习来轻松地集成全局上下文信息.由于两条路径的输出特征表示级别不同,最后使用 FFM 融合模块融合两条路径的输出特征用于实现像素级的分类.2改进的 BiSeNetV1 网络结构通过初期实验表明 BiSeNetV1 双边分割网络在岩屑场景中表现较好,本文在 BiSeNetV1 网络架构的基础上,在保证网络推理速度基本不变的情况下,得到更适合岩屑图像识别的 BiSeN
15、et_SPARM_S-iAFF 网络结构,其整体结构如图 1 所示.Conv+BN+ReLUConv+BN+ReLUConv+BN+ReLUConvConv+BN+ReLU空间路径特征融合S-iAFF4down8down16down32downSPARMSPARM上下文路径8 倍上采样SPARM图 1BiSeNet_SPARM_S-iAFF 网络整体结构计 算 机 系 统 应 用http:/www.c-s-2023年第32卷第10期46专论综述SpecialIssue 2.1 空间路径优化为了捕获图像中足够多的空间信息,高精度方法往往通过增大卷积过程中的感受野,如池化操作或空洞卷积16等方法,
16、但增大感受野同时导致训练成本的增加.通过分析发现岩屑数据集中的图像特征与经典的城市场景数据集 Cityscapes17特征不同,城市场景中的全局空间信息是非常重要的特征信息,因为城市场景中类别的形状具有多样性,同一类别内部也存在颜色和形状上的不同,不同种类的对象大小差距较大,需要足够的全局空间信息来辅助判断某区域的像素信息,而岩屑颗粒图像从整体上看相同种类的岩屑在形状上和大小上的差别较小,同一类别的形状、大小、颜色、细节纹理较为相似,且图像中不同岩屑种类相互交叠的边缘信息较为复杂,需要细化卷积结构将空间路径的映射更多地关注到边缘等特征上.基于上述情况,在保持原始输入图像空间大小的同时,将空间结
17、构扩展至 5 层,同时控制各层通道数大小、卷积核大小、步长等减少参数量的增加,卷积过程使用填充操作保持输出特征映射为原始图像的 1/8,扩展的结构可以更多地提取原始图像的空间信息,图 2 显示了 BiSeNetV1 改进后的空间路径上的卷积结构.Input5125126425625677 ConvBNReLUStride=2Channel=6433 ConvBNReLUStride=2Channel=646412812833 ConvBNReLUStride=2Channel=6464646433 ConvStride=1Channel=12811 ConvBNReLUStride=1Chan
18、nel=1281286464Output1286464图 2BiSeNet_SPARM_S-iAFF 网络空间路径结构 2.2 SPARM 空间金字塔注意力注意力机制近年来被广泛应用于深度学习的诸多领域来提高神经网络的训练性能18,19.BiSeNetV1 中的 ARM 注意力细化模块类似于 SENet20的 SE 块,通过全局平均池化 GAP21聚合各个信道中的全局信息,其类似于结构正则化器的行为能够防止过度拟合,但处理结果更倾向于强调正则化的效果,导致中间特征图中结构信息的丢失,特别是对于比较大的中间特征图进行聚合平均值时,会导致特征表示能力的显著损失,这也是原始上下文路径只对 16 倍和
19、 32 倍下采样的中间特征图使用 ARM 注意力细化模块的原因.ARM 对于图像中特征变化简单的稀疏区域有着较好的表现,但对于图像中特征变化复杂的密集区域,考虑到 ARM 使用单独全局平均池化,越密集的情况其特征变化越复杂,提取上下文语义特征效果越差,这导致在最终的分割效果中密集区域某一单独的岩屑颗粒受到周围区域岩屑颗粒较大的影响.基于上述问题,本文借助 SPA-Net22中 3 个自适应全局平均池化的方法,使语义信息能够被更加充分的利用,其中 11 自适应全局平均池化是具有结构正则化的传统全局平均池化,22 自适应全局平均池化用来平衡结构信息和结构正则化之间的关系,44 自适应全局平均池化可
20、以捕获更多的特征表示和结构信息.相比于原始的单独全局平均池化,此池化方式可以兼顾特征图的正则化效果和原始特征的特征表示、结构信息,同时又继承全局平均池化的优点,SPA 模块的具体结构如图 3 所示,其中 AAP(n)表示 nn 的自适应全局平均池化,Resize 操作将经过自适应全局平均池化操作后的输出特征图调整为与输入特征图相同的大小.注意力模块 SPARM 使用图 3 中的 SPS 空间金字塔池化结构代替单独自适应全局平均池化,并保留 ARM注意力细化模块的连接路径,这种 SPARM 注意力模块能够更加全面的捕获包含特征正则化效果和结构信息的全局上下文信息,通过计算注意力向量来指导特征学习
21、,达到细化上下文路径中下采样阶段的输出特征,图 4 显示了 SPARM 注意力模块的连接路径,其中表示逐元素乘法(element-wisemultiplication).2023年第32卷第10期http:/www.c-s-计 算 机 系 统 应 用SpecialIssue专论综述47Conv 11BNReLUAAP(4)AAP(2)AAP(1)ResizeResizeResizeConcatenateFCBNReLUFCBNSigmoid注意力权重特征图SPS:空间金字塔结构多层感知器逐点卷积图 3SPA 空间金字塔注意力模块的结构SPS11 ConvBNSigmoid11 ConvBNRe
22、LU下采样后的图像特征高级上下文语义特征图 4SPARM 空间金字塔注意力细化模块另外使用空间金字塔的注意力模块能够克服对较大中间特征图特征提取能力差的问题,考虑到岩屑场景具有比较复杂的局部边缘信息,上下文路径的几个输出分支需要通过注意力模块捕获通道的依赖性,本文在上下文路径增加 8 倍下采样的注意力特征提取操作来加强网络对边缘信息的提取,且其输出权重设置相比于 16 倍和 32 倍的输出权重小(权重为 0.2),使得上下文路径的输出更多地关注到深层语义特征.2.3 S-iAFF 注意力特征融合模块为了更好地融合提取到的空间和上下文语义信息,借助文献 23 中的迭代注意特征融合模块来代替 Bi
23、Se-NetV1 网络中的 FFM 特征融合模块,可以很好地解决融合不同尺度特征出现的问题,另外 FFM 融合方法结果更倾向于强调分布在全局的大型对象,融合过程会忽略中小对象大部分图像信息,中小对象的检测是目前先进网络的一大技术瓶颈24.FFM 模块首先使用级联操作连接空间路径和上下文路径的输出特征,利用更新的权重值重新加权级联后的特征.假设空间路径输出特征为 X,上下文路径输出特征为 Y,X 和 Y 通过 Concatenation 级联操作后的特征表示为 Cat(X,Y),最终融合后的输出特征表示为F,可以得到 FFM 特征融合模块的计算方法如下:F=G(Cat(X,Y)Cat(X,Y)+
24、Cat(X,Y)(1)其中,G 表示经过全局平均池化 GAP、批标准化 BN、激活函数后的权重向量.为了解决上述问题,引入了多尺度通道注意力模块(MS-CAM)23,将多尺度的特征在注意力模块内聚合来缓解尺度变化和中小对象引起的问题.MS-CAM是在全局上下文的基础上添加局部上下文分支,选择逐点卷积(Point-wiseConv)作为局部分支的聚合器来淡化全局平均池化操作,使聚合更多地关注到局部上下文信息,最终得到的权重向量通过重新加权平衡局部和全局上下文信息.另外通过取消 MS-CAM 中的通道缩减策略降低复杂度.图 5(a)显示了 MS-CAM 的模块结构,其中 r 表示通道缩减比,图 5
25、(b)显示了去除通道缩减后的结构,将其称为 SimplifiedMS-CAM,简称SMS-CAM.假设 SMS-CAM 模块中通过全局分支的输出为G(Xin),通过局部分支的输出为 L(Xin),首先空间路径的输出 X 通过全局平均池化后得到 g(X),其计算结果如下:g(X)=1HWHi=1Wj=1X:,i,j(2)其中,HW 表示特征图的尺寸大小,:,i,j 表示输入张量 X 中所有批次、在高 i 和宽 j 处的切片位置.全局 G(Xin)和局部上下文 L(Xin)输出计算如下:G(Xin)=(B(pwconv(g(X)(3)L(Xin)=(B(pwconv(X)(4)其中,表示线性整流函
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 改进 BiSeNetV1 实时 模型 岩屑 图像 识别