分享赚钱赏收藏举报版权申诉 / 9

立即下载加入VIP,免费下载

当前位置：首页 > 学术论文 > 综合论文 > 灯光剧烈变化环境自适应的二维人体目标检测.pdf

灯光剧烈变化环境自适应的二维人体目标检测.pdf

上传人：爱文献爱资料

文档编号：21721570

上传时间：2024-04-13

格式：PDF

页数：9

大小：1.57MB

《灯光剧烈变化环境自适应的二维人体目标检测.pdf》由会员分享，可在线阅读，更多相关《灯光剧烈变化环境自适应的二维人体目标检测.pdf（9页珍藏版）》请在文库网上搜索。

1、Vol 30，No 4Aug.,2023第 30 卷，第 4 期2023年 8 月中国传媒大学学报（自然科学版）JOURNAL OF COMMUNICATION UNIVERSITY OF CHINA(SCIENCE AND TECHNOLOGY)灯光剧烈变化环境自适应的二维人体目标检测于永辉1，蔡佳航1，刘斌2，虞海江3，杨文武1*（1.浙江工商大学计算机科学与技术系，杭州 310018；2.南昌大学信息工程学院，南昌 330031；3.中科院软件所，北京 100190）摘要：不同于人类视觉能够适应各种灯光变化环境，现有的二维人体目标检测算法在剧烈灯光变化场景中其检测性能会明显下降。针对这一

2、问题，本文提出了一种灯光剧烈变化环境自适应的二维人体目标检测方法。首先，基于具有剧烈灯光变化的舞台演出环境，本文采集并构建了一个包含各种灯光颜色和丰富灯光变化的人体图片基准数据集（命名为“StageHuman”），以用于验证当前二维人体目标检测算法的缺陷与不足。其次，提出一种基于风格迁移的数据增强策略，将特定场景图片中的剧烈灯光变化风格迁移到大规模公开数据集COCO的人体图片中，再利用风格迁移后的大规模数据集来训练深度神经网络模型，从而提升模型在剧烈灯光变化环境下的二维人体检测性能。最后，通过大量的实验对比与分析，验证了本文方法能够有效提升深度神经网络模型在剧烈灯光变化环境下的鲁棒性和检测精度

3、，并且该有效性不依赖于具体的风格迁移算法，而主要取决于所迁移的灯光变化风格的多样性和完整性。关键词：人体目标检测；深度学习；风格迁移；数据增强中图分类号：TP391 文献标识码：AAdaptive 2D human object detection in environments with dramatic lighting changesYu Yonghui 1,Cai Jiahang1,Liu Bin 2,Yu Haijiang 3,Yang Wenwu 1*(1.Department of Computer Science and Technology,Zhejiang Gongshan

4、g University,Hangzhou 310018,China;2.School of Information Engineering,Nanchang University,Nanchang 330031,China;3.Institute of Software Chinese Academy of Sciences,Beijing 100190,China）Abstract:Unlike human vision,which can adapt to various lighting environments,the performance of existing 2D human

5、 object detection algorithms will be significantly reduced in the scene of drastic lighting changes.In order to solve this problem,in this paper a two-dimensional human object detection method was proposed,which adapted to the environment of drastic lighting changes.Firstly,based on the stage perfor

6、mance environment with drastic lighting changes,a human body image benchmark dataset(named“StageHuman”)containing various light colors and rich light changes was collected and constructed to verify the defects and deficiencies of the current two-dimensional human object detection algorithm.Secondly,

7、a data enhancement strategy based on style transfer was proposed,which migrated the dramatic lighting change style in a specific scene image to the body picture of a large-scale open data 引用格式：于永辉,蔡佳航,刘斌,虞海江,杨文武.灯光剧烈变化环境自适应的二维人体目标检测 J.中国传媒大学学报（自然科学版），2023，30（04）：0816.文章编号：16734793（2023）04000809基金项目：

8、浙江省自然科学基金(LY21F020010)作者简介(*为通讯作者)：于永辉(1999-)，男，硕士研究生，主要从事计算机视觉技术研究。Email：；杨文武(1981-)，男，博士，教授，主要从事计算机动画、计算机视觉和人体运动捕捉技术研究。Email：于永辉2023年于永辉，等：灯光剧烈变化环境自适应的二维人体目标检测set COCO,and then used the large-scale data set after style transfer to train the deep neural network model,so as to improve the two-dimens

9、ional human detection performance of the model under the environment of dramatic lighting change.Finally,through a large number of experimental comparison and analysis,it is verified that the proposed method can effectively improve the robustness and detection accuracy of the deep neural network mod

10、el under the environment of drastic lighting changes,and the effectiveness does not depend on the specific style transfer algorithm,but mainly depends on the diversity and integrity of the lighting change styles transferred.Keywords:object detection;deep learning;style transfer;data augmentation1 引言

11、二维人体目标检测（2D Human Object Detection）在诸多应用领域中扮演着关键角色，例如人体姿态识别和视频监控等 1-2。传统的二维人体目标检测算法主要基于手工设计特征，例如使用HOG、SURF等算法提取图像中的局部特征进行人体目标识别 3-4。传统方法的主要弊端是需要大量的专业知识和经验来设计特征，并且手工设计的特征其表示质量和泛化能力存在局限性，最终限制了目标检测算法在实际应用环境中的性能。与传统方法不同，基于深度学习技术的二维人体目标检测方法自动从大量数据中学习到特征表示，从而能够生成更加高效的目标检测特征5-6。近年来，基于深度卷积神经网络模型的目标检测算法研究取得了

12、突破性进展 7-9，在富有挑战性的公开数据集上显著提升了二维人体目标检测性能 10-12。公开数据集中的图片主要对应着日常的室内外白炽光照环境，但在一些特殊环境中，例如现场的舞台演出环境，场景中的灯光五颜六色、忽明忽暗且变化剧烈，现有的二维人体目标检测算法在这些灯光剧烈变化场景中的检测性能和鲁棒性均会发生明显下降，如图1所示。图1 经典算法（Faster RCNN7,FCOS8,YOLOv59）在COCO公开数据集上训练得到的模型与本文方法（表 1中的YOLO_F_MUL模型）在剧列灯光变化环境下的二维人体目标检测效果9第 4 期中国传媒大学学报（自然科学版）针对上述问题，本文提出了一种灯光剧

13、烈变化环境自适应的二维人体目标检测方法。首先，为了验证当前二维人体目标检测算法在具有剧烈灯光变化环境中表现不足，同时为了设计和测试新算法，本文采集并构建了一个包含各种灯光颜色和剧烈灯光变化的人体图片基准数据集（命名为“StageHuman”）。StageHuman数据集中的图片采自于浙江横店影视城景区内的现场舞台演出环境，对应着多个风格迥异的舞台演出场景，场景中灯光复杂且变化剧烈，包含着各种颜色和明暗不均的舞台灯光，并且可编程电脑灯还会发生各种闪烁以及朝向变化。此外，舞台上的演员个数一直动态变化，少到仅1个人，多到二三十人，并且演员服装和姿态各异，此外演员之间以及演员与表演道具之间常常发生相互

14、遮挡。因此，StageHuman数据集不仅具有剧烈灯光变化的特点，并且包含了丰富的人体与环境多样性。基于 StageHuman数据集，本文进一步提出一种基于风格迁移的数据增强策略，以提升深度神经网络模型在灯光剧烈变化环境下进行二维人体目标检测的鲁棒性和精度。该数据增强策略利用图片风格迁移算法，将StageHuman数据集图片中蕴含的剧烈灯光变化风格迁移到大规模公开数据集的图片中，例如COCO数据集，从而自动获得具有特定灯光变化风格的大规模标注数据。基于风格迁移后获得的具有特定灯光变化风格的大规模标注数据，本文训练深度神经网络模型使其学习到图片中蕴含的剧烈灯光变化风格，从而提升模型在剧烈灯光变化

15、环境下的二维人体检测性能。以StageHuman数据集作为测试验证数据集，通过大量的实验对比与分析，验证了上述方法能够有效提升深度神经网络模型在剧烈灯光变化环境下的鲁棒性和检测精度，并且该有效性不依赖于具体的风格迁移算法，而主要取决于所迁移的灯光变化风格的多样性和完整性。本文贡献可以归纳为以下三方面：(1)采集并构建了一个名为StageHuman的二维人体目标检测基准数据集，该数据集中的图片蕴含了各种灯光颜色以及明暗不均的剧烈灯光变化。根据我们目前的调研结果，StageHuman数据集是国内外首个面向灯光剧烈变化环境的二维人体目标检测数据集。(2)提出一种灯光剧烈变化环境自适应的二维人体目标检

16、测方法，其核心是一个基于风格迁移的数据增强策略，它利用已有的大规模公开数据集，自动获得具有特定灯光变化风格的大规模标注数据来训练深度神经网络模型，最终实现灯光剧烈变化环境自适应的二维人体目标检测。(3)基于StageHuman数据集，通过大量实验，充分验证了本文所提出算法在剧烈灯光变化环境下的有效性和鲁棒性。2 相关工作2.1 目标检测算法目标检测是计算机视觉领域中的一项基本任务，其目标是从图像或视频中识别并定位出多个物体的类别和位置。相较于图像分类任务只需输出物体的类别，目标检测则还需要准确地定位物体的空间位置信息。二维人体目标检测是目标检测的一个特定领域，与一般的目标检测相比，二维人体目标

17、检测更加专注于人体目标的检测和定位。由于人体的形状、姿态和变化范围广泛，人体目标检测在许多应用中具有重要意义，如视频监控、人机交互、人脸识别、行为分析等。Girshick等人6提出了经典的R-CNN算法，它是一种基于锚框的两阶段检测算法。相比于传统的滑动窗口（Sliding Window）方法，R-CNN将目标检测任务转化为候选框的分类和回归问题，大大减少了计算量，并提高了检测性能。在R-CNN算法中，重叠框特征的冗余计算使得整个网络的检测效率较低。为了减少大量重叠框带来的冗余计算，K.He等人13提出了一种空间金字塔池化层（Spatial Pyramid Pooling Layer,SPP）

18、，主要思路是对于一副图像分成若干尺度的图像块，然后对每一块提取的特征融合在一起，从而兼顾多个尺度的特征。进一步，R.Girshick等人7提出了Fast RCNN，该网络使得我们可以在相同的网络配置下同时训练一个检测器和边框回归器，其改进版本Faster RCNN则是第一个端到端的深度学习检测算法，极大提升了检测框的生成速度。两阶段目标检测虽然在目标检测领域取得了很好的成果，但是它的计算复杂度比较高，且需要多个阶段的计算。为了解决这些问题，研究人员开始探索单阶段目标检测算法。在最新的单阶段目标检测算法中，一些算法的性能已经超过了两阶段目标检测算法，同时计算复杂度也得到了很大的优化。YOLO9作

19、为一种较为流行的单阶段目标检测算法，其核心思想是将目标检测问题转化为一个回归问题。YOLO102023年于永辉，等：灯光剧烈变化环境自适应的二维人体目标检测结合了两阶段算法的优点，使用单个神经网络对检测到的对象执行边界框的分类和预测。此外，它针对检测器进行了大量优化，从而大幅提升了目标检测任务的处理速度，实现了实时的目标检测。最终，YOLO算法在准确性和速度上取得了很好的平衡。YOLO算法自提出以来一直在更新迭代，目前已经产生了从YOLOv1到YOLOv8的一系列目标检测算法。随着大规模人体图片标注数据集的可公开获得，上述基于深度学习的二维人体目标检测方法均取得了明显的性能提升，已经成为该方向

20、的主流技术。但是，不同于人类视觉能够适应各种灯光变化环境，现有的二维人体目标检测算法在剧烈灯光变化场景中其检测性能会明显下降，使得这些算法不能直接应用于具有剧烈灯光变化的复杂场景环境中。2.2 风格迁移算法风格迁移（Style Transfer）是指将一种图像的艺术风格应用到另一幅图像上，从而生成一幅新的图像，使得新图像既保留原图像中的主体内容，同时又带有另一幅图像的艺术风格。利用深度学习方法进行风格迁移是图像领域研究的热点之一。当前主流的基于深度学习的图像风格迁移方法可以划分为两类：基于图像迭代的图像风格迁移方法以及基于模型迭代的图像风格迁移方法。Leon A.Gatys等人14首次提出一种

21、基于图像迭代的图像风格迁移方法。论文作者发现了卷积神经网络(CNN)中内容和样式的表示是可分离的，因此可以独立地操纵这两种表示以产生新的、具有感知意义的图像。其主要思路是使用卷积神经网络进行特征提取，然后纹理合成，计算内容损失和风格损失，使用梯度下降优化总损失，然后不断迭代图像以得到艺术图像。然而，由于迭代次数过多、迭代时间较长，这种基于图像迭代的方法效率较低，随之出现了快速风格迁移方法。Justin Johnson等人15中提出了一种基于模型迭代的实时图像风格迁移方法。该方法使用前馈卷积神经网络对感知损失进行优化并生成图片，图像不是由随机噪声产生，而是通过输入图像的变换得到。因此，该方法被称

22、为快速风格迁移方法，而图像风格转换网络也被称为快速风格化网络。在最新的研究中，Domain 16提出了一种基于域感知的风格传输网络，不仅能够传输模版图片的样式，还能同时传递域的属性，同时针对不同的图像领域，自适应的调整风格转换参数，从而获得更好的结果。FastPhoto 17网络主要由样式化以及平滑步骤两部分组成，样式化会将模版图片中的样式转移到待迁移图片中，平滑化则确保两者空间上的样式一致性。由于使用了封闭的函数来实现风格化，该方法迁移速度远高于传统算法。StyleNas 18是一种基于神经网络搜索架构的方法，它不需要进行后处理就能得到迁移后的图片，并且网络还使用了自动剪枝框架，能在保持风格

23、化不变的情况下，提升风格迁移转换效率。3 灯光剧烈变化环境自适应的二维人体目标检测方法3.1 StageHuman：面向灯光变化剧烈舞台演出环境的二维人体目标检测数据集为了验证并提升基于深度网络模型的二维人体目标检测算法在剧烈灯光变化场景中的性能，在真实的复杂演出环境中采集并构建了一个专门的二维人体目标检测基准数据集，该数据集中的图片蕴含了各种灯光颜色以及明暗不均的剧烈灯光变化。把该数据集命名为StageHuman，并且根据目前的调研结果，StageHuman数据集是国内外首个面向灯光剧烈变化环境的二维人体目标检测数据集。StageHuman 数据集的创建分为三个阶段：数据获取、数据预处理、数

24、据集标注。在数据获取阶段，为了保证数据的多样性和真实性，选取了6个不同的真实舞台演出场景，各个场景都对应不同的舞台灯光变化情况，并且演出人物、服饰和动作都各有特色。在数据采集过程中，使用松下GH5S单反相机，以1080p的分辨率和50fps的拍摄帧率，从舞台前方的三个不同视角对正在进行的舞台表演进行拍摄，从而获取到覆盖了整个舞台表演的清晰视频图像。在数据预处理阶段，为了消除冗余数据，以20帧为步长对视频数据进行均匀采样，得到单张图像。在采样得到的所有图像中，以前70%作为训练集图像，后30%作为测试集图像。最后，在数据集标注阶段，采用开源标注软件Labelme，对训练集和测试集图像标注其中的二

25、维人体检测框。采用交叉标注的方式，保证每张图像都至少经过两名标注人员的标注和检查。在两名标注人员标注情况下，整个标注过程由两名标注人员共耗时约 1 个月完成。最终，StageHuman 数据集共包含30,346张单人检测数据，其中的21,242张为训练集，另外的9,104张为测试集。图 2给出了数据集中的部分二维人体标注结果。11第 4 期中国传媒大学学报（自然科学版）图2 StageHuman数据集中的部分二维人体标注结果3.2 基于数据增强的复杂灯光环境下二维人体目标检测为了提升现有的基于深度网络模型的二维人体目标检测算法在灯光剧烈变化环境中的检测性能，一种直接的方法是使用StageHum

26、an数据集对已有的二维人体目标检测深度网络模型进行微调，以使其适应具有剧烈灯光变化的复杂环境。但是由于StageHuman数据集主要采集于舞台表演场景，并且数据集规模有限，容易造成深度网络模型在训练过程中过拟合，并且难以泛化到更多的场景和环境。针对这一问题，我们提出了一种基于风格迁移的数据增强策略，将StageHuman数据集图片所对应场景中的剧烈灯光变化风格迁移到大规模公开数据集COCO的人体图片中，再利用风格迁移后的大规模数据集来训练深度神经网络模型，从而提升模型在剧烈灯光变化环境下的二维人体检测性能，并保持模型在各种场景和环境中的泛化能力。为了实现StageHuman数据集场景中剧烈灯光

27、变化风格的迁移，我们考虑了三种主流的风格迁移算法：Domain16、FastPhoto17、StyleNas18。这三种风格迁移算法的迁移效果如图 3所示，其中Reference指待迁移风格图片，也称为“迁移模板”。可以看出，这三图3 三种不同风格迁移算法对剧烈灯光变化风格的迁移效果122023年于永辉，等：灯光剧烈变化环境自适应的二维人体目标检测种迁移算法的迁移效果各有不同，但是它们均较好地把StageHuman数据集图片中所包含的灯光变化风格迁移到了COCO数据集的人体图片中。在后面的实验部分，我们将通过对比实验，来验证不同迁移算法对最终的二维人体目标检测结果的影响。在本文提出的基于风格迁

28、移的数据增强策略中，利用上述三种风格迁移算法，将StageHuman数据集图片中所蕴含的灯光变化风格迁移到大规模公开数据集COCO的人体图片中，从而实现COCO训练数据集的增强。为了迁移StageHuman数据集图片中所蕴含的灯光变化风格，需要从该数据集中选取一组待迁移风格的图片，这些图片被称为“风格迁移模板”。在实验中，根据所选用的风格迁移算法以及风格迁移模块，本文制定了不同的数据增强策略。为了验证不同迁移算法对二维人体目标检测结果的影响，可以使用单个迁移算法、两个迁移算法或三个迁移算法的不同组合来进行数据增强。同时，为了验证风格迁移模板的数量对二维人体目标检测结果的影响，可以使用单张迁移模

29、板或多张迁移模板来进行数据增强。基于迁移算法和迁移模板数量的不同组合，最终可以得到11种不同的数据增强策略，如表 1所示。在这些增强策略中，“单张模版”表示的是人工挑选了StageHuman训练集中灯光颜色变化具有代表性的某张图片，而“多张模版”表示的是人工挑选了StageHuman训练集中灯光颜色变化具有代表性的一组图片。在实验中，“多张模版”包含了10张代表性图片。根据所选用的迁移算法以及模版数量，为每种增强策略进行了命名。其中，YOLO表示将选用YOLOv5训练二维人体目标检测的深度神经网络模型；D、F和S分别表示使用Domain16，FastPhoto17或StyleNas18算法进行

30、风络迁移；SGL和MUL分别表示使用了“单张模版”或“多张模版”。在YOLOv5模型的训练过程中，对于每种数据增强策略，本文采用如下方法进行数据增强：对于COCO数据集中的每个训练样本，首先根据该策略确定迁移算法，如果该策略包含两个及以上的迁移算法，随机选择其中的一个迁移算法；然后根据该策略确定迁移模板，如果该策略包含多个迁移模板，随机选择其中的一个作为迁移模板；最后，根据确定的迁移算法和迁移模板，把该模板中的风格迁移到上述的COCO的数据集中的训练样本中。表1 迁移算法与迁移模版的不同组合所形成的数据增强策略DomainFastPhotoStyleNas单张模版多张模版命名YOLO_D_SG

31、LYOLO_F_SGLYOLO_S_SGLYOLO_D_MULYOLO_F_MULYOLO_S_MULYOLO_D_F_SGLYOLO_D_S_SGLYOLO_F_S_SGLYOLO_D_F_S_SGLYOLO_D_F_S_MUL4 实验结果根据上节介绍的数据增强策略，本文利用大规模公开数据集MS COCO中的人体图片，来训练二维人体检测深度神经网络模型YOLOv5。根据不同数据增强策略所训练得到的二维人体检测深度神经网络模型，我们分别在COCO数据集的验证集以及StageHuman数据集的测试集上对其进行性能评估。我们分别使用了AP、AR和F1 Score三个指标进行了二维人体检测性能的评估

32、。AP指标：是一种用来衡量物体检测模型的精度评价指标，反映了检测器对每个类别的识别准确程度。AP值越高，说明模型的检测性能越好。AR指标：是一种用来衡量物体检测模型在不同召回率下的准确度评价指标，AR指的是平均召回率（Average Recall，AR），也就是在不同的召回率阈值下，模型检测出的正确目标数的平均值。AR值越高，说明模型的检测性能越好。13第 4 期中国传媒大学学报（自然科学版）F1 Score指标：是综合考虑 Precision和 Recall两个指标的评价指标，其计算方法是精确率与召回率的调和均值，即公式(1)所示：F1 Score=2*()Precision*Recall(

33、)Precision+Recall（1）F1 Score值越高，说明模型的分类性能越好。表 2给出了单一迁移算法和单张模板组合下的数据增强策略所训练得到的二维人体检测深度神经网络模型的性能结果。其中，YOLOv5s表示在COCO数据集上训练而没有使用数据增强得到的深度模型。该实验主要用于验证不同迁移算法对最终检测结果的影响。由表可见，与未进行数据增强的YOLOv5s模型相比，三种数据增强策略训练后得到的模型在StageHuman数据集上的AP和AR精度不仅没有提升反而都出现了下降，这表明了使用单张模版的策略未能提升模型在剧烈灯光变化环境下的二维人体检测性能。此外，我们注意到，三种数据增强策略训

34、练后得到的模型在COCO数据集的AP精度仅出现了较小幅度的下降（-1%-1.5%）以及 AR 指标的略微上升（+0.6%+1.4%），这表明三种不同的风格迁移算法并未对COCO数据集中的图片本质内容产生较大影响，只是改变了数据集中图片的风格，并能够保持在COCO数据集所对应的各种不同环境中的泛化能力，进而验证了使用风格迁移算法进行数据增强策略的可行性。表2 单张模版+单一算法策略下进行数据增强的二维人体检测结果方法YOLOv5sYOLO_D_SGLYOLO_F_SGLYOLO_S_SGL数据集StageHumanMS COCOStageHumanMS COCOStageHumanMS COCO

35、StageHumanMS COCOAP(%)75.480.96479.974.479.967.679.4AR(%)6464.847.965.954.466.25965.4F1 Score69.272.054.872.262.872.463.071.7表 3给出了在单张模板下，不同迁移算法组合的数据增强策略所训练得到的二维人体检测深度神经网络模型的性能结果。其中，YOLOv5s表示在COCO数据集上训练而没有使用数据增强得到的深度模型。该实验主要用于验证通过组合风格迁移算法是否可以提升灯光变化风格的迁移能力。由表可见，与未进行数据增强的YOLOv5s模型相比，四种数据增强策略训练后得到的模型在S

36、tageHuman数据集上的AP和AR精度不仅没有提升反而都出现了下降。并且，从表 2和表 3可以看出，在相同的单张模版策略下，使用单一迁移算法与使用不同迁移算法的组合在最终的二维人体检测结果上性能较接近。这进一步验证了通过表 2结果得出的结论：使用单张模版的策略不能提升模型在剧烈灯光变化环境下的二维人体检测性能。表3 单张模版+不同组合算法策略下进行数据增强的二维人体检测结果方法YOLOv5sYOLO_D_F_SGLYOLO_D_S_SGLYOLO_F_S_SGLYOLO_D_F_S_SGL数据集StageHumanMS COCOStageHumanMS COCOStageHumanMS C

37、OCOStageHumanMS COCOStageHumanMS COCOAP(%)75.480.968.780.967.480.171.379.468.980.8AR(%)6464.853.865.953.465.452.266.555.766.1F1 Score69.272.060.372.659.672.060.372.461.672.7142023年于永辉，等：灯光剧烈变化环境自适应的二维人体目标检测表 4给出了单一迁移算法和多张模板组合下的数据增强策略所训练得到的二维人体检测深度神经网络模型的性能结果。其中，YOLOv5s表示在COCO数据集上训练而没有使用数据增强得到的深度模型。该

38、实验主要用于验证模版图片样本多样性对最终检测结果的影响。由表可见，与未进行数据增强的YOLOv5s模型相比，三种数据增强策略训练后得到的模型在StageHuman数据集上的AP精度均有提升，提升幅度分别为0.7%、4.6%、0.4%，以及在AR指标下精度也有着不同程度的提升。该结果表明，在使用多张模版策略进行数据增强时，三种不同的风格迁移算法都能将StageHuman数据集图片中的灯光变化风格迁移到COCO数据集中，从而提升训练模型在剧烈灯光变化环境下的二维人体检测性能。其中，FastPhoto风格迁移算法取得了4.6%的AP精度提升以及6.1%的AR精度提升，明显更优于Domain与 Sty

39、leNas算法。综合上述分析，可以得出结论：1）相比于单张模版策略，多张模版策略能够充分提取出复杂环境中的剧烈灯光变化风格；2）不同的迁移算法具有不同的灯光变化风格迁移能力。表4 多张模版+单一算法策略下进行数据增强的二维人体检测结果方法YOLOv5sYOLO_D_MULYOLO_F_MULYOLO_S_MUL数据集StageHumanMS COCOStageHumanMS COCOStageHumanMS COCOStageHumanMS COCOAP(%)75.480.976.180.380.079.975.879AR(%)6464.862.366.670.168.564.868.6F1

40、Score69.272.068.572.874.773.869.973.4表 5给出了三个迁移算法和多张模板组合下的数据增强策略所训练得到的二维人体检测深度神经网络模型的性能结果。其中，YOLOv5s表示在COCO数据集上训练而没有使用数据增强得到的深度模型。该实验主要用于验证模版多样性与迁移算法多样性对最终检测结果的影响。由表可见，与未进行数据增强的YOLOv5s模型相比，该数据增强策略训练后得到的模型在StageHuman数据集上的AP精度提升了1.9%以及AR精度提升了5.5%。进一步对比表 3和表 4，可以看出，在多张模板情况下，采用三个迁移算法的组合与单一迁移算法取得的检测精度提升相

41、差较小。我们可以得出结论：相比于不同迁移算法对灯光变化风格迁移能力的影响，多张模版策略对灯光变化风格迁移能力具有更大的影响。表5 多张模版+混合三种算法策略下进行数据增强的二维人体检测结果方法YOLOv5sYOLO_D_F_S_MUL数据集StageHumanMS COCOStageHumanMS COCOAP(%)75.480.977.380.9AR(%)6464.869.568.4F1 Score69.272.073.274.15 结论本文提出了一种灯光剧烈变化环境自适应的二维人体目标检测方法。首先，为了验证并提升基于深度网络模型的二维人体目标检测算法在剧烈灯光变化场景中的性能，本文在真实

42、的复杂演出环境中采集并构建了一个专门的二维人体目标检测基准数据集StageHuman。然后，通过组合不同的风格迁移算法以及迁移模板数量，制定了多种的数据增强策略。最后，根据每种数据增强策略，将StageHuman数据集图片中的剧烈灯光变化风格迁移到大规模公开数据集COCO的人体图片中，再利用风格迁移后的大规模数据集训练得到二维人体检测深度神经网络模型。通过对每种数据增强策略下训练得到的模型进行对比15第 4 期中国传媒大学学报（自然科学版）分析，发现本文提出的基于数据增强的复杂灯光环境下二维人体目标检测方法能够有效提升深度神经网络模型在剧烈灯光变化环境下的检测精度，并且该有效性不依赖于具体的风

43、格迁移算法，而主要取决于所迁移的灯光变化风格的多样性和完整性。参考文献（References）：1Li D，Chen X，Zhang Z，et al.Pose guided deep model for pedestrian attribute recognition in surveillance scenariosC/2018 IEEE International Conference on Multimedia and Expo（ICME），2018：1-6.2Luvizon D C，Picard D，Tabia H.2D/3D pose estimation and action re

44、cognition using multitask deep learning C/2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition，2018：5137-5146.3Dalal N，Triggs B.Histograms of oriented gradients for human detection C/2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition（CVPR05），2005：886-893.

45、4Bay H，Ess A，Tuytelaars T，et al.Speeded-up robust features（SURF）J.Computer Vision and Image Understanding，2008，110（3）：346-359.5Liu W，Anguelov D，Erhan D，et al.SSD：single shot multiBox detector C/European Conference on Computer Vision，2016：21-37.6Girshick R，Donahue J，Darrell T，et al.Rich feature hiera

46、rchies for accurate object detection and semantic segmentationC/2014 IEEE Conference on Computer Vision and Pattern Recognition，2014：580-587.7Ren S，He K，Girshick R，et al.Faster R-CNN：towards real-time object detection with region proposal networksJ.IEEE Transactions on Pattern Analysis&Machine Intel

47、ligence，2017，39（6）：1137-1149.8Tian Z，Shen C，Chen H，et al.FCOS：fully convolutional one-stage object detection C/2019 IEEE/CVF International Conference on Computer Vision（ICCV），2019：9626-9635.9Redmon J，Divvala S，Girshick R，et al.You only look once：unified，real-time object detection C/2016 IEEE Confere

48、nce on Computer Vision and Pattern Recognition（CVPR），2016：779-788.10Lin T Y，Maire M，Belongie S，et al.Microsoft COCO：common objects in contextC/European Conference on Computer Vision，2014：740-755.11Everingham M，Eslami S M A，Van Gool L，et al.The pascal visual object classes challenge：a retrospective J

49、.International Journal of Computer Vision，2015，111：98-136.12Deng J，Dong W，Socher R，et al.ImageNet：a large-scale hierarchical image database C/2009 IEEE Conference on Computer Vision and Pattern Recognition，2009：248-255.13He K，Zhang X，Ren S，et al.Spatial pyramid pooling in deep convolutional networks

50、 for visual recognitionJ.IEEE Transactions on Pattern Analysis and Machine Intelligence，2015，37（9）：1904-1916.14Gatys L A，Ecker A S，Bethge M.A neural algorithm of artistic style DB/OL.arXiv：1508.06576，2015.15Johnson J，Alahi A，Li F F.Perceptual losses for real-time style transfer and super-resolutionC