复杂环境下黄花菜识别的YOLOv7-MOCA模型.pdf
《复杂环境下黄花菜识别的YOLOv7-MOCA模型.pdf》由会员分享,可在线阅读,更多相关《复杂环境下黄花菜识别的YOLOv7-MOCA模型.pdf(8页珍藏版)》请在文库网上搜索。
1、复杂环境下黄花菜识别的 YOLOv7-MOCA 模型靳红杰1,马顾彧2,唐梦圆1,陈婧美1,张银萍1,葛学峰1(1.南京师范大学计算机与电子信息/人工智能学院,南京210023;2.南京邮电大学集成电路科学与工程学院,南京210023)摘要:黄花菜是极具营养价值和经济效益的一种农作物,深受人们喜爱。目前黄花菜采摘大都是人工采摘,采摘效率低、人工成本较高,在设计黄花菜自动采摘机器人的过程中,复杂环境下黄花菜的目标识别是实现智能化采摘的核心问题。该研究建立了包含 12000 幅黄花菜样本的数据库,比较了 YouOnlyLookOnce(YOLOv7)、FasterRegionConvolution
2、alNeuralNetworks(FasterR-CNN)和 SingleShotMultiBoxDetector(SSD)三种模型的检测效果,提出一种基于改进 YOLOv7 目标检测算法的复杂环境下黄花菜识别的 YOLOv7-MOCA 模型,使用 MobileOne 网络作为主干特征提取网络,构建了一种轻量化网络模型,并在颈部网络中融合 CoordinateAttention 注意力机制改善对样本的检测效果。试验结果表明,YOLOv7-MOCA 模型检测准确率为 96.1%,召回率为 96.6%,F1值为 0.96,权重为 10MB,帧速率为 58 帧/s。较 YOLOv7 检测速度提高了
3、26.1%,权重减少了 86.7%,该研究所提出的 YOLOv7-MOCA 模型检测准确率等参数均大幅提升。该模型可以实现黄花菜的快速识别,模型权重小,识别速度快,为黄花菜智能化采摘设备研究提供技术支撑。关键词:识别;智能化;模型;黄花菜;复杂环境;YOLOv7;MobileOne 网络;注意力机制doi:10.11975/j.issn.1002-6819.202305100中图分类号:S25文献标志码:A文章编号:1002-6819(2023)-15-0181-08靳红杰,马顾彧,唐梦圆,等.复杂环境下黄花菜识别的 YOLOv7-MOCA 模型J.农业工程学报,2023,39(15):181
4、-188.doi:10.11975/j.issn.1002-6819.202305100http:/www.tcsae.orgJINHongjie,MAGuyu,TANGMengyuan,etal.IdentifyingdaylilyincomplexenvironmentusingYOLOv7-MOCAmodelJ.TransactionsoftheChineseSocietyofAgriculturalEngineering(TransactionsoftheCSAE),2023,39(15):181-188.(inChinesewithEnglishabstract)doi:10.119
5、75/j.issn.1002-6819.202305100http:/www.tcsae.org0引言黄花菜是一种百合科、萱草属植物,其成熟的花蕾可食用或药用1-2。随着黄花菜的营养价值被发现,其市场消费需求量日益增加,黄花菜产业也趋于正规化、规模化。每年 6 月下旬至 8 月上旬进入黄花菜采摘期,目前黄花菜采摘使用传统人工作业,采摘不及时易导致黄花菜凋谢而造成产量损失3,同时人工采摘成本高、效率低等问题影响黄花菜产业优质、高效发展。由于黄花菜身处成熟花蕾分布不均匀、与周边枝叶混杂以及花蕾与花蕾之间相互遮挡等复杂环境下,尚未有合适的机械设备进行自动化大批量采摘,使用智能化设备进行采收是黄花菜产
6、业发展的必然趋势4-5。国内外研究人员对黄花菜智能化采摘进行不同的研究和尝试。利用视觉系统对目标进行快速识别是实现智能化采摘的前提,目前的黄花菜采摘研究大多停留在使用传统图像处理方法进行简单的目标检测6,该类方法为智能化采摘提供视觉系统的处理思路,仅适用背景简单的理想场景,农作物生长环境复杂,难以进行实际应用。围绕自动化采摘设备方面的研究有,马聪等7基于机器视觉在双目相机标定的基础上用 Bouguet 算法校正,通过 HSV 颜色模型来获取黄花菜目标区域,由于分割的黄花菜图像不完整,因此仍需要根据对目标的面积、外形和质心等进行计算,没有实现对黄花菜的有效识别。YAN 等8为实现对野外环境下黄花
7、菜的智能检测,通过改进 YouOnlyLookOnce(YOLOv5s)算法提高模型性能,改进后模型对野生黄花菜识别精确率为 81.4%,为黄花菜智能采摘设备提供参考。以上关于黄花菜智能采摘的研究均是在未考虑真实黄花菜采摘环境下进行的,在实际黄花菜基地中的应用仍存在很大发展空间,因此,黄花菜的智能化采摘研究仍处于探索阶段。在黄花菜的采摘过程中,黄花菜的成熟花蕾是采集目标,它们相互遮挡、目标小而密、光照强度变化和杂草遮挡等自然环境使得采摘环境比较复杂。近年来,随着人工智能技术的迅速发展,基于深度学习技术的目标检测算法 FasterRegionConvolutionalNeuralNetworks
8、(FasterR-CNN)9、SingleShotMultiBoxDetector(SSD)10和YOLO11-14系列等经典模型在农业领域也表现出较好的效果。目前较为主流的目标检测算法根据处理流程可被分为一阶段和二阶段两种,两种算法被广泛应用在草莓15-16、番茄17-20和苹果21-24等果蔬的识别。其中,FasterR-CNN 算法作为经典的二阶段算法,首先对图像进行多层卷积等操作获得特征图谱,然后对特征图谱进行多尺度检测。SUDHA 等25-26使用 FasterR-CNN 算法对猕猴桃、柑橘和棉花顶芽进行识别检测,对不同目标的识别速度和准确率都达到较好的效果。FasterR-CNN在
9、检测多类对象方面效率较高,但对于多尺度、小目标检测不适宜,二阶网络带来的速度较慢、模型权重较大等问题限制了实时识别的性能。SSD 算法属于直接使用卷积网络进行目标预测的一阶段算法,LIANG 等27基收稿日期:2023-05-15修订日期:2023-08-08基金项目:国家自然科学基金资助项目(No.42177276)作者简介:靳红杰,研究方向为人工智能、电子信息。Email:通信作者:葛学峰,高级工程师,研究方向为人工智能、嵌入式系统。Email:第39卷第15期农 业 工 程 学 报 Vol.39No.152023年8月TransactionsoftheChineseSocietyofAg
10、riculturalEngineeringAug.2023181于 SSD 改进苹果检测模型,改进后算法对苹果识别存在的遮挡和小物体检测问题进行改善,提高了苹果识别的准确率。但由于 SSD 算法的低级卷积层数过少,因此存在对目标特征提取不充分的问题,目标识别准确率不具有明显优势。YOLO 系列算法也是一阶段算法之一,目前是目标检测算法中应用最广、性能较好的算法,如 LI等28-29基于 YOLOv4 网络改进真实场景下葡萄和番茄的检测模型,最终模型的识别精度和速度得到明显提升。王小荣等30基于改进 YOLOv7 算法对复杂环境下红花目标进行识别,该方法通过增加 SwinTransformer注
11、意力机制和改进损失函数相结合,提高了模型的准确率和检测速度,为本文复杂环境下黄花菜的快速识别提供思路。本研究旨在建立复杂环境下黄花菜数据集,通过设计一种基于 YOLOv7 目标检测算法的轻量化模型,对黄花菜识别存在的问题改进与优化,提高黄花菜识别准确率和检测速度,为黄花菜自动化采摘装置的研发提供技术支撑,提高黄花菜的产业规模和经济效益。1黄花菜数据集制作图像采集设备使用 SonyIMX766 高清摄像头,分辨率为 10241024 像素,采集时沿着黄花菜垄的方向移动摄像头,镜头正对着黄花菜进行图像采集。由于黄花菜成熟花蕾采摘时间有限,在黄花菜种植基地农技人员指导下,从 09:0014:00 对
12、黄花菜的成熟花蕾进行图像样本采集。样本图像包括不同天气条件下的单个目标、有遮挡和多个目标的黄花菜图像。图 1 分别为复杂环境中不同天气下的单目标、遮挡和多目标类型的黄花菜样本图像。a.晴:单目标a.Sunny:single targetb.晴:遮挡b.Sunny:occlusionc.晴:多目标c.Sunny:multi-targetd.阴:单目标d.Cloudy:single targete.阴:遮挡e.Cloudy:occlusionf.晴:多目标f.Cloudy:multi-target图 1复杂环境下黄花菜样本图像Fig.1Daylilysamplesincomplexenvironm
13、ent采集的黄花菜图像样本共 3000 幅,结合本研究要求对采集的黄花菜样本进行质量筛选,去除误拍、错拍和高度模糊图像等无效图像,通过缩放、尺寸调整等预处理方式生成基础数据集,最终获得 2000 张有效黄花菜图像,将数据集命名为 VOC_2000,数据集中单目标、多目标、目标遮挡和杂草遮挡类型图像分别为 500、500、520 和 480 张。为保证样本图像的丰富性,增强黄花菜模型的泛化能力,使模型在实际复杂环境背景下达到较好的识别能力,本研究采用镜像、亮度变化、高斯噪声和高斯滤波四种方式进行黄花菜图像数据增强,将基础数据集 VOC_2000 扩充为原来的 6 倍,增强后的数据集共 12000
14、 幅,命名为 VOC_12000,样本图像增强效果如图 2 所示。a.原图a.Original imageb.亮度增强b.Brightness enhancementc.亮度减弱c.Reduced brightnessd.镜像d.Mirror imagee.高斯噪声e.Gaussian noisef.高斯滤波e.Gaussian filtering图 2样本图像数据增强效果Fig.2Effectsofsampleimagedataenhancement黄花菜图像样本统一用 LabelImg 插件手动标注出目标的边界框坐标,形成可投入训练的 VOC 和 YOLO 标签格式。为保证模型的有效训练,
15、首先将数据集的 60%作为训练集,测试集和验证集各占数据集的 20%。训练集用于训练模型的权重参数,测试集用来检测训练后模型的泛化能力,验证集用于调整最终模型的超参数和模型初步能力评估。将增强后数据集 VOC_12000 进行样本分配用于后续试验,训练集、测试集和验证集具体为 7200、2400 和 2400 张。2试验条件与评价指标2.1试验条件本文为保证试验环境的统一性,模型训练和测试使用相同的试验平台。试验环境操作系统为 Ubuntu16.04,显 卡 驱动 NVIDIA GetForce RTX3080,搭 载 Intel(R)Xeon(R)E5-2678v3 处理器,编程平台 Ana
16、conda23.3.0,CUDA11.6,采用深度学习框架 Pytorch-GPU-2.0.0,编程使用 python3.9。2.2参数选择与设置本文试验统一使用数据集 VOC_12000 进行黄花菜模型的训练,输入图像大小统一为 640640 像素。通过前期多次试验得到黄花菜目标检测模型训练收敛的最大迭代次数最佳为 600 次,为保证试验参数的一致性,模型训练均采用 600 次迭代次数。由于冻结训练对最终模型特征获取效果不明显,因此仅使用解冻训练,模型基本参数设置:epoch=600,batch_size=32;使用 Adam 优化器,初始学习率设置为 0.01。2.3评价指标为保证有效评估
17、模型性能,本研究使用模型识别目标的准确率(Precision,P)、召回率(Recall,R)、F1值、模型权重(Weights)和帧速率(FPS)5 个参数来评价模型的相关表现31-32。其中,准确率又称“查准率”,是所有被识别的黄花菜中,真正黄花菜所占的比例;召182农业工程学报(http:/www.tcsae.org)2023年回率是识别的黄花菜数量与测试集中所有实际黄花菜数量的比值;F1值是模型的准确率与召回率的调和平均数,用于评价两参数的兼容性,区间为 0 到 1,区间内值越大则准确率与召回率的兼容性越好;模型权重是指网络在黄花菜数据集上训练后产生的黄花菜模型大小,轻量级模型的权重一
18、般较小,便于移植于移动设备;帧速率是模型处理每帧图像所需要的时间。3网络模型的选择与改进3.1模型的选择将黄花菜数据集分别在现有使用较广泛的目标检测模型 FasterRegionConvolutionalNeuralNetworks(FasterR-CNN)、YouOnlyLookOnce(YOLOv7)和 SingleShotMultiBoxDetector(SSD)上进行训练,三种目标检测算法在 600 次迭代中保持稳定收敛,最后均产生有效黄花菜模型。模型的训练损失用于判断该算法的学习能力和网络稳定性,模型损失结果如图 3 所示。10020030040050060000.51.01.5SS
19、D Faster R-CNNYOLO-v7损失Loss迭代次数Number of iterations图 3模型训练损失Fig.3Traininglossofmodels其中 SSD 损失趋势稳定下降至 0.5 左右,FasterR-CNN 和 YOLOv7 模型在前 200 次迭代中下降趋势明显,FasterR-CNN 最终训练损失稳定在 0.2,而 YOLOv7 最终损失为 0.008。因此,YOLOv7 目标检测模型在对数据集的训练损失较少,对样本数据利用率较高,模型自主学习能力较强。黄花菜数据集在不同模型的检测效果如表 1 所示。通 过 对 比 数 据 可 以 看 出,在 相 同 的
20、训 练 条 件 下,YOLOv7 的准确率、召回率和 F1值都高于其他两个目标检测网络。因此,本文选择提取特征充分且权重和检测速度都相对良好的 YOLOv7 进行黄花菜模型设计与改进。表1黄花菜数据集在不同模型检测效果Table1Detectioneffectsofdifferentmodelsonthedaylilydataset模型Model准确率Precision/%召回率Recall/%F1值F1score权重Weights/MB帧速率FramesPerSecond/fpsFasterR-CNN86.290.10.8814827YOLOv792.993.40.937546SSD87.2
21、88.20.8851403.2YOLOv7 网络模型的改进YOLOv7 是典型的一阶段目标检测算法,模型以检测速度快、精度较高和泛化能力优秀等特点而被广泛运用到实时检测中。YOLOv7 网络结构主要包括三部分,分别是输入层(input)、主干网络(backbone)和检测头(head)。Input 层作为输入层,主要工作是对输入的图像进行尺寸重置预处理,预处理后的图像输入Backbone 层;Backbone 层作为重要的主干网络,主要作用是进行特征图谱提取,由大至小提取三层特征图谱信息,提取的特征信息直接输入 Head 层;Head 层主要将Backbone 层提取的三层特征由小至大分别进行
22、上采样融合,融合后结果产生 3 种大小的预测结果形成 Head 层结果。3.2.1融入 MobileOne 神经网络模块黄花菜目标检测具有目标背景复杂的特点,同时检测算法需要部署在黄花菜自动化采摘现场的轻量化移动设备中。MobileNetv333-34和 ShuffleNetv235-36是目前较为主流的轻量化神经网络,被广泛应用于图像识别和目标检测中。MobileOne37是针对移动设备的新型轻量化神经网络,主要用于解决大量计算造成的精度下降和预测延迟等问题。其变体在移动设备上的推理时间低于1ms,准确度在现有主干网络中也略占优势,与现有可部署高效架构相比,模块可推广到图像分类、对象检测和语
23、义分割,且在延迟性和准确性方面有显著改进。MobileOne 基于 MobileNet 以及 RepVGG 卷积神经网络,目前许多经典网络主干大量使用残差结构与SE(squeeze-and-excitation)模块来进行卷积计算,而MobileOne 使用 RepVGG 中的重参数技术减少了残差结构的额外开销,且只在最大的模型结构 MobileOne-s4中才使用少量的 SE 模块。具体结构如表 2 所示,共有 8 个序列,其中 6 个序列使用 MobileOneBlock 替代原始的残差模块实现特征提取,MobileOneBlock 基于深度可分离卷积,由多分支的 DepthWise 卷积
24、模块和 PointWise卷积模块组成,承担了训练和推理两种工作模式,推理时没有多分支结构,不会产生额外的访存,以便使用更大的通道数进行卷积运算,提高了训练、推理速度;序列 7 直接进行平均池化,序列 8 作为线性层进行单层感知,模型统一使用比其它激活函数速度更快的 ReLU 作为激活函数。本文将 MobileOne 轻量化主干网络模块替换原始的 CSPDarknet53 网络模块,主干网络改进后的模型命名为 YOLOv7-MO。表2MobileOne 网络结构Table2NetworkstructureofMobileOne序列Stage输入Input操作Operator输出Output步长
25、Stride1224224MobileOne-Block6422112112MobileOne-Block64235656MobileOne-Block128242828MobileOne-Block256251414MobileOne-Block256161414MobileOne-Block5122777AvgPool1811Linear51213.2.2引入 Coordinate Attention 注意力机制注意力机制是机器学习中的一种数据处理方法,较广泛应用于自然语言处理、图像处理和语音识别等不同类型的机器学习任务中,主要通过网络自主学习进行动态加权计算的方式来强调目标区域,抑制不相
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 复杂 环境 黄花菜 识别 YOLOv7 MOCA 模型