多尺度语义学习的人脸图像修复.pdf
《多尺度语义学习的人脸图像修复.pdf》由会员分享,可在线阅读,更多相关《多尺度语义学习的人脸图像修复.pdf(7页珍藏版)》请在文库网上搜索。
1、D0I:10.13878/ki.jnuist.20221010004左心悦郝子娴杨有多尺度语义学习的人脸图像修复摘要针对卷积神经网络在图像修复过程中难以兼顾修复结果的局部细节和全局语义一致性问题,以生成对抗网络为基础,提出一种多尺度语义学习的编解码人脸图像修复模型.首先,将人脸图像用门控卷积分解为具有不同大小的感受野和特征分辨率的分量,用不同尺寸的卷积核提取多尺度特征,通过提取合适的局部特征来提升修复结果的细节;其次,将提取的多尺度特征输入至语义学习模块,从通道和空间两个角度学习特征之间的语义关系,从而增强修复结果的全局一致性;最后,引入跳跃连接将编码端的特征补充到解码端中减少采样造成的细节信
2、息损失,改善修复结果的纹理细节.在CelebA-HQ人脸数据集上进行实验,结果表明提出的模型在峰值信噪比、结构相似性、l三个性能指标上均有显著提升,修复的结果在视觉上局部细节和全局语义更合理.关键词图像修复;多尺度;语义学习;卷积神经网络;生成对抗网络中图分类号TP391.4文献标志码A收稿日期2 0 2 2-10-10资助项目重庆市研究生联合培养基地项目(2 0 19-45);重庆市教育委员会人文社会科学研究规划项目(2 1SKGH044)作者简介左心悦,女,硕士生,研究方向为计算机视觉.2 0 2 0 2 10 516 0 9 5 杨有(通信作者),男,博士,副教授,研究方向为计算机视觉.
3、2 0 130 9 58 1重庆师范大学计算机与信息科学学院,重庆,40 13312重庆师范大学重庆国家应用数学中心,重庆,40 13310引言图像修复(Image Inpainting)的目的是根据图像的已知内容重构缺失或损坏的区域,使修复的区域与整体内容保持一致.人脸图像修复作为其中一个重要的分支,在诸多领域有着重要的应用价值,比如面部修饰 和修复老照片2 等领域.为了解决这一具有挑战性的任务,基于纹理合成的传统方法3-4主要是在图片的已知区域中寻找相似的纹理匹配块.但人脸图像不同于其他图像,面部五官具有固定的几何特性,传统方法输出的结果通常在语义方面存在局限.例如,人脸图像缺失的区域是鼻
4、子,而已知区域没有与之对应的相似的纹理匹配块,因此无法产生语义上合理的结果.随着深度学习的发展,卷积神经网络(ConvolutionalNeuralNetwork,CNN)和生成对抗网络(GenerativeAdversarial Network,GAN)5在图像修复领域取得了一系列卓越的成果.CNN 具有强大的特征识别和提取能力,GAN是生成模型的一种,核心思想源于博奔论的纳什均衡.GAN由生成器和判别器组成,生成器学习真实数据样本的潜在分布并尽可能生成新的数据样本,判别器努力判断输入的数据是真实数据还是生成的数据样本,两者在对抗中学习.Pathak 等6 将GAN的思想引人到图像修复中,并
5、采用自编码器作为生成器生成修复结果,实验表明修复的结果既符合语义又具有真实性,该方法掀起了基于深度学习的图像修复的研究热潮.基于深度学习的修复方法最初都是针对规则的矩形破损区域进行修复,但在人脸修复的具体应用场景中,破损区域通常都是不规则的.针对此问题,Liu等7 首次提出用部分卷积替换U-Net中的普通卷积,实现了对任意形状任意大小缺失区域的图像修复;Yu等8 提出了门控卷积,在特征层的不同空间位置为每个通道建立了可学习的动态特征选择机制,以改善训练期间的掩码更新问题;Yang等9 提出了可学习结构知识融合网络,该网络分为两个阶段,第一阶段生成人脸边缘先验信息,第二阶段利用生成的边缘先验信息
6、辅助进行图像修复.虽然上述方法在人脸图像修复领域取得了重大进展,但在特征表达方面仍存在一定限制导致输出的结果局部细节和全局不一致.CNN中感受野和图像特征的大小影响模型的学习能力,有效地增加感受野、提取合适的特征图来扩大局部特征范围有利于提升修复效果,两者的大小取决于卷积核的尺寸.同时,CNN 由于其固有的特性很南京信息工经大学学报(自然科学版),2 0 2 3,15(5):534-540Journal of Nanjing University of Information Science&Technology(Natural Science Edition),2023,15(5):534-
7、540难对离缺失区域距离较远的区域建模,使得修复的结果出现伪影、模糊的纹理导致整体内容不一致.针对以上问题,本文提出一种多尺度语义学习的模型来实现对不规则破损的人脸图像修复,通过加强局部特征表达、对远距离空间的多尺度特征建模来提升修复结果局部细节和全局一致性.主要贡献点如下:1)提出一种基于CNN 结构的多尺度提取特征的策略,用尺寸不同的卷积核提取不同尺度的人脸图像特征并获取大小不同的感受野,以增强局部特征表达,从而提升修复结果的细节.2)设计了一种语义学习模块从通道和空间两个角度学习多尺度特征之间的语义关系来提升生成图像内容的整体一致性。1相关工作1.1基于 GAN的图像修复生成对抗网络在图
8、像修复领域取得了重大的突破,尤其面对复杂的图像修复任务,克服了传统方法语义理解困难的限制.Pathak等6 将Encoder-Decoder引人到修复任务中,结合了GAN 的对抗性思想提出了一个名为Context-Encoder的网络,并使用重构损失和对抗性损失作为约束条件来提升修复的效果.lizuka等10 将Context-Encoder6中的判别器保留为局部判别器,同时增加一个全局判别器.Yu等引人了上下文注意力机制通过对远距离空间特征建模修复图像.以上算法针对的是破损区域为规则的矩形图片,但在实际应用中,图像破损的区域通常是不规则的.Liu等7 用部分卷积代替普通卷积实现了对不规则破损
9、图像的修复.Yu等8 提出了门控卷积,在特征层的不同空间位置为每个通道建立了可学习的动态特征选择机制,以改善训练期间的掩码更新问题.Wang等12 提出了多列卷积生成网络,该网络在编码阶段使用不同大小的卷积核来获得不同大小的感受野.Yu等13提出了一种新颖的区域归一化,它可以根据输人掩码将空间像素分为损坏和未损坏的区域,并分别计算每个区域的平均值和方差.Liu等14设计了一个连贯的语义注意层,对缺失区域的特征进行语义关联建模.虽然上述方法在不规则破损人脸图像修复中取得了一定成果,但生成的结果局部细节和全局一致性差,存在整体结构扭曲、局部细节纹理模糊的问题.1.2人脸图像修复人脸修复是图像修复的
10、一个重要分支,人脸图535像具有特殊性,五官具有明显的几何结构特性,且人脸图像不止有正脸,还包含侧脸等角度,因此人脸图像修复是一项具有挑战性的任务.人脸修复可分为单元修复方法15-16 和多元修复方法17-2 0,只要输出的结果自然合理,人脸图像修复也可以产生多种结果.近年来深度学习技术2 1取得了重大进展,在分类2 2、行为识别2 3、人脸图像修复等领域都取得了许多杰出的成果,Sun 等15提出了一种在社交媒体照片中进行脸部修复的方法,根据损坏的图像的上下文信息,在适当的位置生成面部位置,并根据面部位置补全缺失的部分.Banerjee 等16 提出了一个多尺度的GAN,直接根据提供的人脸特征
11、生成视觉上真实的背景像素和背景,如头发、脖子和衣服.Zheng等17 将VAE与GAN结合起来,并行地生成和重建网络,以实现多样性的修复.Zhao等18 提出了一个无监督的跨空间生成模型用于人脸修复.Liu等19 设计了一个概率多样化的 GAN,用于生成多种修复结果.Peng等2 0 提出使用一个分层的量化变分自编码器,首先学习自回归分布,然后分割结构和纹理特征.但多样修复生成模型在训练中容易崩溃且参数量较大,2方法2.1模型整体设计本文提出的多尺度语义学习的人脸图像修复整体采用生成对抗网络模型,由生成器和判别器组成,如图1所示.生成器包括三个步骤:第一步,输人破损的人脸图像,通过三个并行的编
12、码端提取具有不同大小的感受野和特征分量的多尺度特征;第二步,提取的多尺度特征输人至多尺度语义学习模块中来学习语义关系;第三步,将编码端的特征通过跳跃连接补充到解码端进行解码,减少采样造成的信息损失,输出修复好的预测图.将生成器输出的预测图与真实图同时输人至判别器判断真假,通过对抗学习提高模型的修复能力,同时在判别器加入了谱归一化2 4解决生成对抗网络训练不稳定问题.2.1.1多尺度特征提取为了扩大感受野的范围增强局部特征来提升修复质量,采用在编码端提取多尺度特征的方法解决.将破损的人脸图像输入至三个并行的编码器,每个编码器分别使用33、55、7 7 的卷积核提取特征以获得不同大小的感受野,从而
13、得到丰富的信息来左心悦,等.多尺度语义学习的人脸图像修复,536ZUO Xinyue,et al.Face image inpainting with multi-scale sematic learning.重构损失风格损失感知损失多尺度语义学习模块破损图+掩码预测图真假?抗损失真实图33门控卷积门控卷积门控卷积Fig.1 Overview of face image inpainting with multi-scale semantic learning5577解码器判别器数据流跳跃连接图1多尺度语义学习的人脸图像修复模型提升修复结果的细节.普通卷积将破损像素和已知像素同等对待同时输人至
14、卷积层,导致修复的结果模糊,部分卷积7 中人为设定的掩码更新机制不合理,比如在网络深层无效像素会消失,因此,模型采用门控卷积8 1提取特征.门控卷积有助于改善修复细节,提升整体颜色一致性,特别是修复有不规则破损区域的图像.门控卷积具有灵活的掩码更新机制,与硬门控机制不同,门控卷积能自动从数据中学习软掩码,即使在网络深层仍然能够根据掩码学习到不同通道中的特征来进行图像修复.同时,本文在每个门控卷积层加入批量归一化,以防止训练期间梯度消失.该操作可以表示为Gating=ZZW,I,Feature=Z ZW,I,I=BN(O(Feature)O(Gating),其中,|表示输人的特征图,Gating
15、表示门控,Feature表示卷积后的特征图,W。和W,分别表示不同的卷积核,I表示门控卷积层输出的特征图,是LeakyReLU激活函数,表示对应位置元素相乘,表示 Sigmoid激活函数,因此门控值在0 和1之间取得,BN()代表批量归一化.2.1.2多尺度语义学习模块为了提升修复结果全局一致性,将经过并行编码器获得的多尺度特征分别输人至多尺度语义学习模块来学习全局特征之间语义的关系,该模块由通道语义学习模块和空间语义学习模块组成,从不同角度学习多尺度特征之间的语义关系来提升修复效果.第一步,将多尺度特征输人至通道语义学习模块中,如图2 所示.通道语义学习模块想法来源于SENet25,但不同的
16、是增加了门控设计,通过对注意力扩展增加更多的非线性,来更好地拟合通道间复杂的相关性,使模型自动地学习不同通道的重要信息从而学习语义关系.首先,通过全局池化得到多尺度特征在通道层面的全局特征,将其送人两个全连接层中,使用Sigmoid激活函数学习每个通道之间的关系以获得不同通道的权重,预测每个通道的重要性;然后,将权重图作用到原始特征图上,将全局特(1)征尺寸变换还原到原始特征的大小,和输入做通道(2)级拼接;最后,将拼接后的结果并行送入全连接层,(3)第二个分支再次使用Sigmoid函数激活,和第一个分支的结果逐元素相乘得到最终的输出.第二步,将第一步的结果输人到空间语义学习模块,如图3所示.
17、空间语义学习模块可从离缺失区域较远的位置学习来生成缺失部分像素,从已知区域学习语义关系来提升整体一致性.首先从输入的特征图中已知区域和缺失区域提取33像素的补丁块,计算补丁块之间的余弦相似性,计算式如下:(4)其中,f,和于分别表示缺失区域的第i个补丁块和已南京信息工统大学学报(自然科学版),2 0 2 3,155):534-540Journal of Nanjing University of Information Science&Technology(Natural Science Edition),2023,15(5):534-540全局池化输入输出Fig.2Channel seman
18、tic learning module知区域的第j个补丁块.采用Softmax函数计算已知区域每个补丁块的注意分数,计算式如下:exp(Si,)S,=2exp(s.)N最后基于注意力分数图重构输入的特征图生成缺失部分,计算式如下:Nf=ZfiS第三步,将经过多尺度语义学习模块的特征从通道维度拼接,送人解码器中解码.卷积编码过程中会丢失部分信息,因此通过跳跃连接将编码器的特征补充到解码器,恢复丢失的细节信息。提取补丁块计算注意力分数特征图注意力分数图3空间语义学习模块Fig.3 Spatial semantic learning module2.2#损失函数在训练过程中引人了感知损失、风格损失、
19、重构损失和对抗损失约束生成语义合理的结果.感知损失Cm【2 用来捕获高级语义特征,模拟人类对图像质量的视觉感知.使用ImageNet27上的预训练模型VGG-1628提取高级语义特征,感知损失计算式如下:(7)其中,pol,是VGG-16的第i个池化层的激活图,ie1,3,E表示期望,Iou是模型生成的预测图,I是真537全连接层全连接层全连接层逐元素相乘Sigmoid图2 通道语义学习模块特征重构重构特征Sigmoid尺度变换拼接全连接层(5)(4)型的优越性,将模型与CA、CCo n v(9、EC(2、PIC17、R FR 30 五个经典的图像修复模型在CelebA-HQ人脸数据集上进行实
20、验对比,同时进行消融实验验证模块的有效性。3.1定量评价根据破损区域占整体图片的比例,在(10%20%)、(2 0%30%、(30%40%、(40%50%)四个掩码比例上做了对比实验.评价指标为峰值信噪比(Peak Signal to Noise Ratio,PSNR)、结构相似性31(St r u c t u r e SIM i l a r i t y,SSIM)、t,距离,分别从预测图与真实图的失真程度、整体结构相似程度、平均绝对误差三个角度展开评价.定量评价如表1所示,本文提出的网络在不同掩码比例下性能均优于其他方法,表明提出的方法能有效地生成高质量的修复结果。为了验证多尺度语义学习模块
21、的重要性,表2为去掉多尺度语义学习模块(Multi-scale SemanticLearning,MSL)的定量结果.实图片,Ix表示x的L1范数.风格损失Csyle与感知损失Lpere计算方法类似,用来保持图像整体风格一致性.风格损失的计算式如下:(8)(9)其中,l表示特征图对应的Gram矩阵.对抗损失被用来确保重建图像的一致性,它的定义如下:Cadv=min maxEf,log D(Ig)+E og1-D(Iou).(10)此外,计算Iou和I之间的l,距离作为重构损失,计算式如下:Cre=E II I out-I y Il I.综上所述,总体损失函数计算式如下:Liotal=A per
22、e pere+A syule esyule+Aad a+Are Lree(12)3实实验与结果分析实验硬件环境采用NVIDIARTX3060TiGPU,显存大小为8 CB,CPU为i5-10400F,内存大小为16GB.网络构建由PyTorch深度学习框架实现,优化算法使用Adam,训练模型时Batchsize为8,具体参数为入pere=0.05、入syle=120、入re=1、入adv=0.1.数据集采用CelebA-HQ人脸数据集和NVIDIA不规则掩码数据集,图像尺寸统一裁剪为2 56 2 56 像素.为了模(11)左心悦,等.多尺度语义学习的人脸图像修复,538ZUO Xinyue,e
23、t al.Face image inpainting with multi-scale sematic leaming.表1不同算法在CelebA-HQ数据集的定量比较表2 多尺度语义学习模块消融实验对比Table 1Quantitative comparison betweenTable 2Experimental comparison of ablation ofdifferent algorithms on CelebA-HQmulti-scale semantic learning modules掩码比例评价指标模型(10%20%)(20%30%)(30%40%)(40%50%CA L
24、28.04GConv830.92EC2931.23PSNRPIC17RFR 30本文32.29CA L0.941GConv80.969EC290.971SSIM PIC17RFR 30本文0.977CALI0.015 0GConv80.010 6EC290.009 6PIC170.013 8RFR 3010.010 0本文0.007 6注:个表示越大越好;十表示越小越好。掩码比例评价指标模型(10%20%)(20%30%)(30%40%(40%50%)24.8622.4927.5125.1527.9425.5129.1326.0230.5428.3529.000.8880.9370.9420.
25、9560.9150.9640.9470.9530.025 90.018 30.017 10.023 20.015 40.014 020.6023.2723.4923.7421.7926.4424.7026.7624.900.8230.7430.8980.8500.9020.8470.8620.7900.9210.8860.9260.8880.039 00.054.70.027 20.037 50.025 90.036 80.034 30.047 90.022.20.030.40.021 10.029 6W/oMSL32.11PSNR个本文32.29W/oMSL0.976SSIMT本文0.977
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 尺度 语义 学习 图像 修复