灯光剧烈变化环境自适应的二维人体目标检测.pdf
《灯光剧烈变化环境自适应的二维人体目标检测.pdf》由会员分享,可在线阅读,更多相关《灯光剧烈变化环境自适应的二维人体目标检测.pdf(9页珍藏版)》请在文库网上搜索。
1、Vol 30,No 4Aug.,2023第 30 卷,第 4 期2023年 8 月中国传媒大学学报(自然科学版)JOURNAL OF COMMUNICATION UNIVERSITY OF CHINA(SCIENCE AND TECHNOLOGY)灯光剧烈变化环境自适应的二维人体目标检测于永辉1,蔡佳航1,刘斌2,虞海江3,杨文武1*(1.浙江工商大学计算机科学与技术系,杭州 310018;2.南昌大学信息工程学院,南昌 330031;3.中科院软件所,北京 100190)摘要:不同于人类视觉能够适应各种灯光变化环境,现有的二维人体目标检测算法在剧烈灯光变化场景中其检测性能会明显下降。针对这一
2、问题,本文提出了一种灯光剧烈变化环境自适应的二维人体目标检测方法。首先,基于具有剧烈灯光变化的舞台演出环境,本文采集并构建了一个包含各种灯光颜色和丰富灯光变化的人体图片基准数据集(命名为“StageHuman”),以用于验证当前二维人体目标检测算法的缺陷与不足。其次,提出一种基于风格迁移的数据增强策略,将特定场景图片中的剧烈灯光变化风格迁移到大规模公开数据集COCO的人体图片中,再利用风格迁移后的大规模数据集来训练深度神经网络模型,从而提升模型在剧烈灯光变化环境下的二维人体检测性能。最后,通过大量的实验对比与分析,验证了本文方法能够有效提升深度神经网络模型在剧烈灯光变化环境下的鲁棒性和检测精度
3、,并且该有效性不依赖于具体的风格迁移算法,而主要取决于所迁移的灯光变化风格的多样性和完整性。关键词:人体目标检测;深度学习;风格迁移;数据增强中图分类号:TP391 文献标识码:AAdaptive 2D human object detection in environments with dramatic lighting changesYu Yonghui 1,Cai Jiahang1,Liu Bin 2,Yu Haijiang 3,Yang Wenwu 1*(1.Department of Computer Science and Technology,Zhejiang Gongshan
4、g University,Hangzhou 310018,China;2.School of Information Engineering,Nanchang University,Nanchang 330031,China;3.Institute of Software Chinese Academy of Sciences,Beijing 100190,China)Abstract:Unlike human vision,which can adapt to various lighting environments,the performance of existing 2D human
5、 object detection algorithms will be significantly reduced in the scene of drastic lighting changes.In order to solve this problem,in this paper a two-dimensional human object detection method was proposed,which adapted to the environment of drastic lighting changes.Firstly,based on the stage perfor
6、mance environment with drastic lighting changes,a human body image benchmark dataset(named“StageHuman”)containing various light colors and rich light changes was collected and constructed to verify the defects and deficiencies of the current two-dimensional human object detection algorithm.Secondly,
7、a data enhancement strategy based on style transfer was proposed,which migrated the dramatic lighting change style in a specific scene image to the body picture of a large-scale open data 引用格式:于永辉,蔡佳航,刘斌,虞海江,杨文武.灯光剧烈变化环境自适应的二维人体目标检测 J.中国传媒大学学报(自然科学版),2023,30(04):0816.文章编号:16734793(2023)04000809基金项目:
8、浙江省自然科学基金(LY21F020010)作者简介(*为通讯作者):于永辉(1999-),男,硕士研究生,主要从事计算机视觉技术研究。Email:;杨文武(1981-),男,博士,教授,主要从事计算机动画、计算机视觉和人体运动捕捉技术研究。Email:于永辉2023年于永辉,等:灯光剧烈变化环境自适应的二维人体目标检测set COCO,and then used the large-scale data set after style transfer to train the deep neural network model,so as to improve the two-dimens
9、ional human detection performance of the model under the environment of dramatic lighting change.Finally,through a large number of experimental comparison and analysis,it is verified that the proposed method can effectively improve the robustness and detection accuracy of the deep neural network mod
10、el under the environment of drastic lighting changes,and the effectiveness does not depend on the specific style transfer algorithm,but mainly depends on the diversity and integrity of the lighting change styles transferred.Keywords:object detection;deep learning;style transfer;data augmentation1 引言
11、二维人体目标检测(2D Human Object Detection)在诸多应用领域中扮演着关键角色,例如人体姿态识别和视频监控等 1-2。传统的二维人体目标检测算法主要基于手工设计特征,例如使用HOG、SURF等算法提取图像中的局部特征进行人体目标识别 3-4。传统方法的主要弊端是需要大量的专业知识和经验来设计特征,并且手工设计的特征其表示质量和泛化能力存在局限性,最终限制了目标检测算法在实际应用环境中的性能。与传统方法不同,基于深度学习技术的二维人体目标检测方法自动从大量数据中学习到特征表示,从而能够生成更加高效的目标检测特征5-6。近年来,基于深度卷积神经网络模型的目标检测算法研究取得了
12、突破性进展 7-9,在富有挑战性的公开数据集上显著提升了二维人体目标检测性能 10-12。公开数据集中的图片主要对应着日常的室内外白炽光照环境,但在一些特殊环境中,例如现场的舞台演出环境,场景中的灯光五颜六色、忽明忽暗且变化剧烈,现有的二维人体目标检测算法在这些灯光剧烈变化场景中的检测性能和鲁棒性均会发生明显下降,如图1所示。图1 经典算法(Faster RCNN7,FCOS8,YOLOv59)在COCO公开数据集上训练得到的模型与本文方法(表 1中的YOLO_F_MUL模型)在剧列灯光变化环境下的二维人体目标检测效果9第 4 期中国传媒大学学报(自然科学版)针对上述问题,本文提出了一种灯光剧
13、烈变化环境自适应的二维人体目标检测方法。首先,为了验证当前二维人体目标检测算法在具有剧烈灯光变化环境中表现不足,同时为了设计和测试新算法,本文采集并构建了一个包含各种灯光颜色和剧烈灯光变化的人体图片基准数据集(命名为“StageHuman”)。StageHuman数据集中的图片采自于浙江横店影视城景区内的现场舞台演出环境,对应着多个风格迥异的舞台演出场景,场景中灯光复杂且变化剧烈,包含着各种颜色和明暗不均的舞台灯光,并且可编程电脑灯还会发生各种闪烁以及朝向变化。此外,舞台上的演员个数一直动态变化,少到仅1个人,多到二三十人,并且演员服装和姿态各异,此外演员之间以及演员与表演道具之间常常发生相互
14、遮挡。因此,StageHuman数据集不仅具有剧烈灯光变化的特点,并且包含了丰富的人体与环境多样性。基于 StageHuman数据集,本文进一步提出一种基于风格迁移的数据增强策略,以提升深度神经网络模型在灯光剧烈变化环境下进行二维人体目标检测的鲁棒性和精度。该数据增强策略利用图片风格迁移算法,将StageHuman数据集图片中蕴含的剧烈灯光变化风格迁移到大规模公开数据集的图片中,例如COCO数据集,从而自动获得具有特定灯光变化风格的大规模标注数据。基于风格迁移后获得的具有特定灯光变化风格的大规模标注数据,本文训练深度神经网络模型使其学习到图片中蕴含的剧烈灯光变化风格,从而提升模型在剧烈灯光变化
15、环境下的二维人体检测性能。以StageHuman数据集作为测试验证数据集,通过大量的实验对比与分析,验证了上述方法能够有效提升深度神经网络模型在剧烈灯光变化环境下的鲁棒性和检测精度,并且该有效性不依赖于具体的风格迁移算法,而主要取决于所迁移的灯光变化风格的多样性和完整性。本文贡献可以归纳为以下三方面:(1)采集并构建了一个名为StageHuman的二维人体目标检测基准数据集,该数据集中的图片蕴含了各种灯光颜色以及明暗不均的剧烈灯光变化。根据我们目前的调研结果,StageHuman数据集是国内外首个面向灯光剧烈变化环境的二维人体目标检测数据集。(2)提出一种灯光剧烈变化环境自适应的二维人体目标检
16、测方法,其核心是一个基于风格迁移的数据增强策略,它利用已有的大规模公开数据集,自动获得具有特定灯光变化风格的大规模标注数据来训练深度神经网络模型,最终实现灯光剧烈变化环境自适应的二维人体目标检测。(3)基于StageHuman数据集,通过大量实验,充分验证了本文所提出算法在剧烈灯光变化环境下的有效性和鲁棒性。2 相关工作2.1 目标检测算法目标检测是计算机视觉领域中的一项基本任务,其目标是从图像或视频中识别并定位出多个物体的类别和位置。相较于图像分类任务只需输出物体的类别,目标检测则还需要准确地定位物体的空间位置信息。二维人体目标检测是目标检测的一个特定领域,与一般的目标检测相比,二维人体目标
17、检测更加专注于人体目标的检测和定位。由于人体的形状、姿态和变化范围广泛,人体目标检测在许多应用中具有重要意义,如视频监控、人机交互、人脸识别、行为分析等。Girshick等人6提出了经典的R-CNN算法,它是一种基于锚框的两阶段检测算法。相比于传统的滑动窗口(Sliding Window)方法,R-CNN将目标检测任务转化为候选框的分类和回归问题,大大减少了计算量,并提高了检测性能。在R-CNN算法中,重叠框特征的冗余计算使得整个网络的检测效率较低。为了减少大量重叠框带来的冗余计算,K.He等人13提出了一种空间金字塔池化层(Spatial Pyramid Pooling Layer,SPP)
18、,主要思路是对于一副图像分成若干尺度的图像块,然后对每一块提取的特征融合在一起,从而兼顾多个尺度的特征。进一步,R.Girshick等人7提出了Fast RCNN,该网络使得我们可以在相同的网络配置下同时训练一个检测器和边框回归器,其改进版本Faster RCNN则是第一个端到端的深度学习检测算法,极大提升了检测框的生成速度。两阶段目标检测虽然在目标检测领域取得了很好的成果,但是它的计算复杂度比较高,且需要多个阶段的计算。为了解决这些问题,研究人员开始探索单阶段目标检测算法。在最新的单阶段目标检测算法中,一些算法的性能已经超过了两阶段目标检测算法,同时计算复杂度也得到了很大的优化。YOLO9作
19、为一种较为流行的单阶段目标检测算法,其核心思想是将目标检测问题转化为一个回归问题。YOLO102023年于永辉,等:灯光剧烈变化环境自适应的二维人体目标检测结合了两阶段算法的优点,使用单个神经网络对检测到的对象执行边界框的分类和预测。此外,它针对检测器进行了大量优化,从而大幅提升了目标检测任务的处理速度,实现了实时的目标检测。最终,YOLO算法在准确性和速度上取得了很好的平衡。YOLO算法自提出以来一直在更新迭代,目前已经产生了从YOLOv1到YOLOv8的一系列目标检测算法。随着大规模人体图片标注数据集的可公开获得,上述基于深度学习的二维人体目标检测方法均取得了明显的性能提升,已经成为该方向
20、的主流技术。但是,不同于人类视觉能够适应各种灯光变化环境,现有的二维人体目标检测算法在剧烈灯光变化场景中其检测性能会明显下降,使得这些算法不能直接应用于具有剧烈灯光变化的复杂场景环境中。2.2 风格迁移算法风格迁移(Style Transfer)是指将一种图像的艺术风格应用到另一幅图像上,从而生成一幅新的图像,使得新图像既保留原图像中的主体内容,同时又带有另一幅图像的艺术风格。利用深度学习方法进行风格迁移是图像领域研究的热点之一。当前主流的基于深度学习的图像风格迁移方法可以划分为两类:基于图像迭代的图像风格迁移方法以及基于模型迭代的图像风格迁移方法。Leon A.Gatys等人14首次提出一种
21、基于图像迭代的图像风格迁移方法。论文作者发现了卷积神经网络(CNN)中内容和样式的表示是可分离的,因此可以独立地操纵这两种表示以产生新的、具有感知意义的图像。其主要思路是使用卷积神经网络进行特征提取,然后纹理合成,计算内容损失和风格损失,使用梯度下降优化总损失,然后不断迭代图像以得到艺术图像。然而,由于迭代次数过多、迭代时间较长,这种基于图像迭代的方法效率较低,随之出现了快速风格迁移方法。Justin Johnson等人15中提出了一种基于模型迭代的实时图像风格迁移方法。该方法使用前馈卷积神经网络对感知损失进行优化并生成图片,图像不是由随机噪声产生,而是通过输入图像的变换得到。因此,该方法被称
22、为快速风格迁移方法,而图像风格转换网络也被称为快速风格化网络。在最新的研究中,Domain 16提出了一种基于域感知的风格传输网络,不仅能够传输模版图片的样式,还能同时传递域的属性,同时针对不同的图像领域,自适应的调整风格转换参数,从而获得更好的结果。FastPhoto 17网络主要由样式化以及平滑步骤两部分组成,样式化会将模版图片中的样式转移到待迁移图片中,平滑化则确保两者空间上的样式一致性。由于使用了封闭的函数来实现风格化,该方法迁移速度远高于传统算法。StyleNas 18是一种基于神经网络搜索架构的方法,它不需要进行后处理就能得到迁移后的图片,并且网络还使用了自动剪枝框架,能在保持风格
23、化不变的情况下,提升风格迁移转换效率。3 灯光剧烈变化环境自适应的二维人体目标检测方法3.1 StageHuman:面向灯光变化剧烈舞台演出环境的二维人体目标检测数据集为了验证并提升基于深度网络模型的二维人体目标检测算法在剧烈灯光变化场景中的性能,在真实的复杂演出环境中采集并构建了一个专门的二维人体目标检测基准数据集,该数据集中的图片蕴含了各种灯光颜色以及明暗不均的剧烈灯光变化。把该数据集命名为StageHuman,并且根据目前的调研结果,StageHuman数据集是国内外首个面向灯光剧烈变化环境的二维人体目标检测数据集。StageHuman 数据集的创建分为三个阶段:数据获取、数据预处理、数
24、据集标注。在数据获取阶段,为了保证数据的多样性和真实性,选取了6个不同的真实舞台演出场景,各个场景都对应不同的舞台灯光变化情况,并且演出人物、服饰和动作都各有特色。在数据采集过程中,使用松下GH5S单反相机,以1080p的分辨率和50fps的拍摄帧率,从舞台前方的三个不同视角对正在进行的舞台表演进行拍摄,从而获取到覆盖了整个舞台表演的清晰视频图像。在数据预处理阶段,为了消除冗余数据,以20帧为步长对视频数据进行均匀采样,得到单张图像。在采样得到的所有图像中,以前70%作为训练集图像,后30%作为测试集图像。最后,在数据集标注阶段,采用开源标注软件Labelme,对训练集和测试集图像标注其中的二
25、维人体检测框。采用交叉标注的方式,保证每张图像都至少经过两名标注人员的标注和检查。在两名标注人员标注情况下,整个标注过程由两名标注人员共耗时约 1 个月完成。最终,StageHuman 数据集共包含30,346张单人检测数据,其中的21,242张为训练集,另外的9,104张为测试集。图 2给出了数据集中的部分二维人体标注结果。11第 4 期中国传媒大学学报(自然科学版)图2 StageHuman数据集中的部分二维人体标注结果3.2 基于数据增强的复杂灯光环境下二维人体目标检测为了提升现有的基于深度网络模型的二维人体目标检测算法在灯光剧烈变化环境中的检测性能,一种直接的方法是使用StageHum
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 灯光 剧烈 变化 环境 自适应 二维 人体 目标 检测