多尺度注意力融合的图像超分辨率重建.pdf
《多尺度注意力融合的图像超分辨率重建.pdf》由会员分享,可在线阅读,更多相关《多尺度注意力融合的图像超分辨率重建.pdf(11页珍藏版)》请在文库网上搜索。
1、文章编号2097-1842(2023)05-1034-11多尺度注意力融合的图像超分辨率重建陈纯毅*,吴欣怡,胡小娟,于海洋(长春理工大学计算机科学技术学院,吉林长春130022)摘要:光学成像分辨率受衍射极限、探测器尺寸等诸多因素限制。为了获得细节更丰富、纹理更清晰的超分辨率图像,本文提出了一种多尺度特征注意力融合残差网络。首先,使用一层卷积提取图像的浅层特征,之后,通过级联的多尺度特征提取单元提取多尺度特征,多尺度特征提取单元中引入通道注意力模块自适应地校正特征通道的权重,以提高对高频信息的关注度。将网络中的浅层特征和每个多尺度特征提取单元的输出作为全局特征融合重建的层次特征。最后,利用残
2、差分支引入浅层特征和多级图像特征,重建出高分辨率图像。算法使用 Charbonnier 损失函数使训练更加稳定,收敛速度更快。在国际基准数据集上的对比实验表明:该模型的客观指标优于大多数最先进的方法。尤其在 Set5 数据集上,4 倍重建结果的 PSNR 指标提升了 0.39dB,SSIM 指标提升至 0.8992,且算法主观视觉效果更好。关键词:卷积神经网络;超分辨率重建;多尺度特征提取;残差学习;通道注意力机制中图分类号:TP391文献标志码:Adoi:10.37188/CO.2023-0020Imagesuper-resolutionreconstructionwithmulti-sca
3、leattentionfusionCHENChun-yi*,WUXin-yi,HUXiao-juan,YUHai-yang(School of Computer Science and Technology,Changchun University of Science and Technology,Changchun 130022,China)*Corresponding author,E-mail:Abstract:Theresolutionofopticalimagingislimitedbythediffractionlimit,systemdetectorsizeandmanyoth
4、erfactors.Toobtainimageswithricherdetailsandclearertextures,amulti-scalefeatureattentionfusionresidualnetworkwasproposed.Firstly,shallowfeaturesoftheimagewereextractedusingalayerofconvo-lutionandthenthemulti-scalefeatureswereextractedbyacascadeofmulti-scalefeatureextractionunits.Thelocalchannelatten
5、tionmoduleisintroducedinthemulti-scalefeatureextractionunittoadaptivelycor-recttheweightsoffeaturechannelsandimprovetheattentiontohighfrequencyinformation.Theshallowfeaturesandtheoutputofeachmulti-scalefeatureextractionunitwereusedashierarchicalfeaturesforglob-alfeaturefusionreconstruction.Finally,t
6、hehight-resolutionimagewasreconstructedbyintroducingshal-lowfeaturesandmulti-levelimagefeaturesusingtheresidualbranch.Charbonnierlosswasadoptedtomakethetrainingmorestableandconvergefaster.Comparativeexperimentsontheinternationalbenchmarkdata-setsshowthatthemodeloutperformsmoststate-of-the-artmethods
7、onobjectivemetrics.EspeciallyontheSet5dataset,thePSNRindexofthe4reconstructionresultisincreasedby0.39dB,andtheSSIMindexis收稿日期:2023-01-28;修订日期:2023-02-20基金项目:国家自然科学基金项目(No.U19A2063);吉林省科技发展计划项目(No.20230201080GX)SupportedbytheNationalNaturalScienceFoundationofChina(No.U19A2063);ScienceandTechnologyDe-
8、velopmentProjectofJilinProvince(No.20230201080GX)第16卷第5期中国光学(中英文)Vol.16No.52023 年 9 月ChineseOpticsSept.2023increasedto0.8992,andthesubjectivevisualeffectofthealgorithmisbetter.Keywords:convolutionalneuralnetwork;super-resolutionreconstruction;multi-scalefeatureextraction;re-siduallearning;channelatt
9、entionmechanism1引言传统光学成像系统使用多组光学透镜将光线折射聚焦到传感器上,由此建立目标场景和传感器像素之间的对应关系,传感器将光信号转换为电信号,再经过数字化处理得到最终图像。在此过程中,成像分辨率与信息量不可避免地受到光学衍射极限、探测器离散采样、成像系统空间带宽积等若干物理因素的影响1。受制作工艺和成本限制,从硬件方面提高图像的分辨率很难突破,因此图像超分辨率重建技术得到了广泛关注2-3。图像超分辨率重建是指由低分辨率(LowResolution,LR)图像或图像序列重建高分辨率(HighResolution,HR)图像4。其中,单幅图像超分辨率重建技术已被广泛应用于高
10、光谱成像5-6、医学影像7-9、卫星遥感10-11、人脸识别12-13等领域。图像超分辨重建的最主要目的是增加数字图像的像素数,尽可能重建图片中的高频信息,获得边缘纹理清晰可见,颜色保真的图像。目前,单幅图像超分辨率重建(SingleImageSuper-Resolu-tion,SISR)的传统方法主要分为三类,分别是:基于插值的方法14、基于重建的方法和基于浅层学习的方法。基于插值的方法是根据 LR 图像像素的排列关系就近选择性质相同的像素值进行重建。常见的插值算法如双三次插值法(Bicubic),目前大部分情况将其用于预先上采样模型的数据预处理。虽然计算简单但是损失较多,重建图像边缘通常会
11、产生锯齿伪影,效果不好。基于重建的方法首先要构建退化模型,通过退化模型逆推重建图像。基于浅层学习的方法是从大量的 LR-HR 图像样本中学习图像对之间的联系,根据学到的变换对低分辨率图像进行重建。近几年,卷积神经网络与超分辨率重建任务结合更加常见15-16。2014 年,Dong 等人17受传统稀疏编码学习的启发,构建了由图像特征提取表示层、非线性映射层及重建层构成的超分辨率卷积神经网络(Super-ResolutionConvolutionalNeuralNetwork,SRCNN),其输入是经双三次插值放大到目标尺寸的 LR 图像,因此训练速度较慢。为了加快训练速度,Dong 等人18提出
12、了对 SRCNN的改进模型,即快速超分辨率卷积神经网络(FastSuper-Resolution Convolutional Neural Network,FSRCNN),其使用反卷积进行上采样操作,并置于网络末端。网络内部则采用尺寸较小的卷积层,输入小尺寸图像块,降低了计算复杂度,提升了重建质量。Kim 等人19构建了一个 20 层深度的 卷 积 网 络 VDSR(Super-resolution using VeryDeepConvolutionalNetwork),证明了加深网络和全局残差学习对超分辨率重建任务有效,并且在训练时使用梯度裁剪策略解决了加深网络带来的梯度问题。为了减轻训练深
13、层网络的难度,Tai 等人20提出深度递归残差网络(DeepRecursiveRe-sidualNetwork,DRRN),DRRN 引入了局部残差学习,每运行几层就进行一次残差学习,最后的输出进行全局残差学习,同时用递归学习控制模型的参数量。Shi 等人21提出的高效亚像素卷积神经网络(EfficientSub-PixelConvolutionalNeur-alNetwork,ESPCN),使用亚像素卷积对图像放大,节约了重建成本的同时也增强了网络对复杂映射的学习能力。Zhang 等人22将稠密连接网络和残差网络相结合,提出了稠密残差网络(Resid-ualDenseNetwork,RDN)
14、,该模型充分利用浅层特征,但因为参数量过大,无法投入实际应用。Lim 等人23提出增强深度残差(EnhancedDeepSuper-Resolution,EDSR)网络结构实现,为了减少计算量,移除残差模块中不必要的归一化层和激活函数层,之后的很多研究也省去了归一化层。Zhang等人24提出的 RCAN(ResidualChannelAttentionNetwork)网络首次在图像超分任务中加入通道注意力机制,并用残差嵌套结构加深网络。Li 等人25提出的多尺度残差网络(Multi-ScaleResidualNet-work,MSRN)使用两种不同大小的卷积核交叉串联对输入图像进行反复的特征信
15、息提取,网络收敛速度快,重建效果好。Zhao 等人26利用像素注意力机制构建了高效的图像超分辨率重建网络PAN(PixelAttentionNetwork)提升了重建性能。第5期陈纯毅,等:多尺度注意力融合的图像超分辨率重建1035提升重建性能不仅可以通过网络结构实现,还可以从训练策略上入手。Wang 等人27采用边缘增强的梯度损失训练边缘增强特征蒸馏网络(Edge-enhancedFeatureDistillationNetwork,EFDN),基于重参数化法构建边缘增强的多样化分支块,提取了更多的高频特征。在上述模型中 SRCNN17、FSRCNN18和 ES-PCN21属于浅层网络模型,
16、后两者均属于后置上采样模型,分别在网络末端使用反卷积和亚像素卷积对图像上采样重建,与使用插值算法进行预先上采样的模型相比效果明显更好。三种模型使用的卷积层数都较少,因此在重建比例较大时效果虽然优于传统模型但依旧不理想。VDSR19、DRRN20、RDN22及 EDSR23均属于利用了残差学习的深层模型,前三者使用梯度裁剪抑制深层网络容易出现的梯度问题,EDSR23去掉了归一化层,简化了网络结构,并且使用单一模型解决多尺度缩放的问题。但上述模型仍有不足,首先,网络模型计算量依然很大,其次,忽视了特征通道重要性的差异,对不同类型的信息都采用相同的处理方式,导致其重建性能受限。RCAN24和 PAN
17、26采用不同的注意力机制分别挖掘不同特征通道和不同像素之间的联系,以提升重建性能,但模型中的卷积核大小单一,对多尺度特征利用不充分,并且其组内各模块采用串联的方式,中间层特征未得到利用。MSRN25和 EFDN27对网络中的层次特征和图像的多尺度特征加以利用。从计算复杂度上考虑,MSRN25参数量多于 EFDN27。以训练难度衡量,EFDN27使用高级的调优策略,训练过程更复杂,但重建效果更好。针对上述单幅图像超分辨率重建算法中出现的特征提取尺度单一、特征通道处理方式不灵活、特征复用不充分、深层网络训练难等问题。本文提出了基于多尺度残差网络的 SISR 方法,对现有的多尺度残差网络进行改进,主
18、要工作如下:(1)为了缓解单一尺度卷积造成的特征丰富度缺失,采用沙漏状的多尺度特征提取单元,加入通道注意力机制,根据学习权重筛选特征通道,灵活处理通道信息,提升模型计算效率;(2)将局部残差学习和全局残差学习相结合,提高了信息流传播的效率,引入浅层特征和多级层次特征加强监督;(3)使用多路分支的级联网络结构,扩宽网络宽度,充分利用图像的上下文信息,提升重建图像的质量。2网络结构2.1多尺度注意力残差网络本文提出的多尺度注意力残差网络(Multi-ScaleAttentionResidualNetwork,MSARN)结构如图 1 所示。该网络结构包括浅层特征提取模块、多尺度特征提取模块(Mul
19、ti-ScaleFeatureEx-tractionBlock,MSFEB)、残差分支(ResidualBra-nch,RB)和特征融合重建层(FeatureFusionRe-constructionLayer,FFRL)。网络输入为低分辨率图像块 ILR,输出为超分辨率重建结果 ISR。图像的浅层特征与原始输入相比包含更多的像素点信息。由单层卷积生成的低层特征映射可以捕获输入图像的细节。浅层特征提取选用大小为 33,输出通道数为 64 的卷积层,为保证输入输出大小一致 padding=1。浅层特征提取可表示为:F0=HSF(ILR),(1)ILRISRF0浅层特征提取(HSF)残差分支(RB
20、)多尺度特征提取模块(MSFEB)Conv 卷积层多尺度提取单元MSFEU层次特征融合ConcatUpsample重建层逐元素相加特征融合重建层(FFRL)Conv1,64,64Conv3,64,128Conv3,128,256Conv3,256,128Conv3,128,64Conv1,64,64MSFEU1G1G2F2F1R1R2R3MoutMnMSFEU2MSFEUnM1M21036中国光学(中英文)第16卷ILRIRF浅层特征提取(HSF)残差分支(RB)多尺度特征提取模块(MSFEB)Conv 卷积层多尺度提取单元MSFEU层次特征融合ConcatUpsample重建层逐元素相加特征
21、融合重建层(FFRL)Conv1,64,64Conv3,64,128Conv3,128,256Conv3,256,128Conv3,128,64Conv1,64,64MSFEUGGFFRRRMoutMMSFEUMSFEUMM图1多尺度注意力残差网络Fig.1Multi-scaleattentionresidualnetwork其中,HSF()表示卷积操作,F0是提取出的浅层特征,即多尺度特征提取模块和残差分支的输入。2.2多尺度特征提取模块多尺度特征提取模块由多个沙漏状的多尺度特征提取单元(Multi-ScaleFeatureExtractionUnit,MSFEU)组成,图 2 为多尺度特征
22、提取单元结构。第一级Conv1ConcatConcatConcatFusionPoolingSigmoidConv1-1Conv1-2Conv3Conv3Conv3ConcatConv3Conv3Conv3Conv1Conv1Mn1F1,2F1,3F2,1F2,2F2,3FLFMnF1,1Conv3Conv3第二级通道注意力模块图2多尺度特征提取单元Fig.2Multi-scalefeatureextractionunit图像的多尺度特征由 3 个分支提取,每个分支分为两级,包含不同数目的卷积层,每个卷积层后默认添加 LeakyReLU 激活层。设 Mn-1为前一单元的输出,第一级 3 条分支
23、得到的结果可表示为:F1,1=r(W1,233r(W1,111 Mn1),(2)F1,2=r(W1,533r(W1,433r(W1,311 Mn1),(3)F1,3=r(W1,611 Mn1),(4)其中,Fi,j代表第 i 级第 j 条分支的输出结果,r()表示 LeakyReLU 激活函数,“*”表示卷积运算,W 表示对应卷积层的权重,W 下标是对应的卷积核大小,上标对应所属级数和从上到下的序号。第一级的结果两两分组输入到下一级中交叉级联,继续提取深层特征。三条分支提取到的深层特征在通道维度上级联,再由 Fusion 层融合得到更丰富的特征描述。第二级多特征提取结果可表达为:F2,1=r(
24、W2,233r(W2,133Concat(F1,1,F1,2),(5)F2,2=r(W2,333Concat(F1,1,F1,3),(6)F2,3=W2,533r(W2,433Concat(F1,2,F1,3),(7)FLF=Fusion(Concat(F2,1,F2,2,F2,3),(8)其中,FLF表示融合得到的多尺度特征,Concat()表示特征按通道级联。Fusion()代表卷积核大小为 11 的卷积操作,作用是将输出特征的通道数调整为 64。多尺度特征经过通道注意力模块过滤,重新计算调整权重,加上局部残差得到多特征提取单元的最终输出。通道注意力模块包含全局平均池化层,代表激励操作的两
25、层卷积和 ReLU 激活函数以及 Sigmoid 激活层。每个二维的特征图经全局平均池化转换为单个实数,每一个实数可以代表其对应的特征通道的全局信息。将所有实数向量化,由此得到 11C 的实数列,即特征通道描述符。使用大小为 11 的卷积核提取跨通道的交互信息,第一层卷积作用是降维,降维压缩比例为 16。经 ReLU 激活后再用大小为 11 的卷积核进行升维,还原至原始特征维度。使用 Sig-moid()函数将卷积学习到的通道相关权重归一化,分别与对应的特征通道相乘,得到加权校正后的特征通道。再通过跳跃连接引入前一单元的输出,得到多尺度特征提取单元的最终输出。设第n 个多尺度特征提取单元的输出
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 尺度 注意力 融合 图像 分辨率 重建