自适应聚合和代价自学习的多视图立体重建.pdf
《自适应聚合和代价自学习的多视图立体重建.pdf》由会员分享,可在线阅读,更多相关《自适应聚合和代价自学习的多视图立体重建.pdf(8页珍藏版)》请在文库网上搜索。
1、第 卷 第期 年月探 测 与 控 制 学 报J o u r n a l o fD e t e c t i o n&C o n t r o lV o l N o A u g 收稿日期:基金项目:厦门大学嘉庚学院预研项目(Y Y L )作者简介:张晓燕(),女,陕西西安人,博士后,副教授.自适应聚合和代价自学习的多视图立体重建张晓燕,陈祥,郭颖(厦门大学嘉庚学院信息科学与技术学院,福建 漳州 ;厦门大学电子科学与技术学院,福建 厦门 ;西安机电信息技术研究所,陕西 西安 )摘要:近年来,基于卷积神经网络的多视图立体(MV S)重建应用广泛,可依然存在重建结果整体性和完整性不理想问题,对多视图三维重
2、建中的特征提取模块和匹配代价体优化模块进行改进,提出一种自适应聚合和代价自学习的多视图立体重建方法.首先,从输入图像中提取不同尺度图像特征,通过可变性卷积把不同尺度图像特征自适应聚合,以提高特征提取的准确度和丰富度;然后,通过可微分单应性变换构建匹配代价并进行正则化,再通过代价自学习模块进一步优化,进而得出每个像素在不同深度假设平面的概率值;最后,将深度假设平面和概率值加权求和得到最终的深度图.经过在D TU数据集上进行测试,与现有的基准方法MV S N e t相比,整体性提高了 ,完整性提高了 ,得到了质量更优的三维重建结果.关键词:多视图立体;自适应聚合;代价自学习;可变形卷积中图分类号:
3、T P 文献标志码:A文章编号:()A d a p t i v eA g g r e g a t i o na n dC o s t S e l f L e a r n i n g f o rM u l t i v i e wS t e r e oR e c o n s t r u c t i o nZ HAN GX i a o y a n,CHE NX i a n g,GUOY i n g(T a nK a hK e eC o l l e g e,X i a m e nU n i v e r s i t y,Z h a n g z h o u ,C h i n a;S c h o o l o
4、 fE l e c t r o n i cS c i e n c ea n dE n g i n e e r i n g,X i a m e nU n i v e r s i t y,X i a m e n ,C h i n a;X ia nI n s t i t u t eo fE l e c t r o m e c h a n i c a l I n f o r m a t i o nT e c h n o l o g y,X ia n ,C h i n a)A b s t r a c t:A l t h o u g ht h em u l t i v i e ws t e r e o(M
5、V S)r e c o n s t r u c t i o nb a s e do nc o n v o l u t i o n a ln e u r a ln e t w o r kh a sa c h i e v e dg o o dr e s u l t s,t h e r ea r es t i l lp r o b l e m so fu n s a t i s f a c t o r yo v e r a l la n dc o m p l e t e n e s so fr e c o n s t r u c t i o nr e s u l t s T h i sp a p e
6、 r f o c u s e so nt h e f e a t u r ee x t r a c t i o nm o d u l ea n dm a t c h i n gc o s t i nMV S Dr e c o n s t r u c t i o n O p t i m i z a t i o ns t u d i e s a r e c a r r i e do u t t op r o p o s e a ne f f i c i e n tm u l t i v i e ws t e r e on e t w o r k F i r s t l y,i m a g e f
7、e a t u r e s a r e e x t r a c t e df r o mt h e i n p u t i m a g e,a n di m a g ef e a t u r e so fd i f f e r e n ts c a l e sa r ea d a p t i v e l ya g g r e g a t e dt h r o u g hv a r i a b l ec o n v o l u t i o nt o i m p r o v e t h e a c c u r a c yo f f e a t u r e e x t r a c t i o na
8、n d t h e r i c h n e s so f e x t r a c t i o nr e s u l t s T h e n,t h em a t c h i n gc o s t i sc o n s t r u c t e dt h r o u g hd i f f e r e n t i a b l eh o m o g r a p h yt r a n s f o r m a t i o n A f t e r t h em a t c h i n gc o s t i sr e g u l a r i z e d,i t i so p t i m i z e db yt
9、 h ec o s t s e l f l e a r n i n gm o d u l e F i n a l l y,t h e f i n a l d e p t hm a p i so b t a i n e db yr e g r e s s i n gt h eo p t i m i z e dm a t c h i n gc o s t a n dc o m b i n i n g t h e e d g e i n f o r m a t i o no f t h e i m a g e B y t e s t i n go n t h eD TU(T e c h n i c
10、a lU n i v e r s i t yo fD e n m a r k)d a t a s e t,c o m p a r e dt ot h ee x i s t i n gb e n c h m a r km e t h o dMV S N e t,t h eo v e r a l l i n c r e a s e d,t h e i n t e g r i t y i m p r o v e d T h e t e s t r e s u l t so n t h eD TUd a t a s e t s h o wt h a t t h e i n t e g r i t ya
11、 n da c c u r a c yo ft h en e t w o r ks t r u c t u r ep r o p o s e d i nt h i sp a p e rh a v eb e e ng r e a t l y i m p r o v e d,a n dt h eq u a l i t yo f t h eo b t a i n e d Dr e c o n s t r u c t i o nr e s u l t s i sb e t t e r K e yw o r d s:m u l t i v i e ws t e r e o(MV S);a d a p t
12、 i v ea g g r e g a t i o n;c o s t s e l f l e a r n i n g;d e f o r m a b l ec o n v o l u t i o n 引言近年来,移动设备和无人机获取二维图像变得越来越简单,但是二维图像缺少空间信息的真实性和完整性,不能够表达空间对象间的立体关系,因此,多视图立体重建技术得到了广泛重视和飞速发展.多视图立体重建是在已知多个视角的图片集合及其对应的相机内外参数条件下,恢复场景或者物体的三维几何模型,该技术不仅能给人以更真实的感受,而且还能描述和表达物体之间的图像场景和深度关系.在三维可视化、虚拟现实、场景理解、智
13、慧医疗和自动驾驶等领域中有着广泛的应用.传统的多视图重建方法是利用摄像机从多个角度拍摄物体,之后通过各个角度视图之间的几何关系计算并优化深度.文献 开创性地提出了C o l m a p,该方法采用手工设计特征提取器提取特征,由于其在公共数据集上的重建结果较理想,C o l m a p经常被选为对比方法来证明提出方法的有效性;然而C o l m a p重建耗时长,即便小场景也需要耗费若干小时.文献 提出名为O p e n MVG的开源库,包含运动结构恢复(S FM)所需的工具,代码开源可读性强,方便二次开发;但O p e n MVG的缺点在于只能恢复场景的稀疏点云,无法恢复场景的稠密点云.针对这
14、个缺点,文献 提出了O p e n MV S,重建结果即为场景的稠密点云.虽然O p e n MV S是目前重建效果最好的开源库,但仍存在无纹理区域、弱纹理和遮挡区域重建效果差的困扰.为了解决这些问题,有学者使用卷积神经网络进行多视图立体重建.文献 提出利用卷积神经网络直接对单张图像恢复深度,该网络采取了多尺度的结构进行深度预测,并且将尺度不变特性引入损失函数中,极大地增强了网络的泛化能力,为后续学者使用深度学习方法进行多视图重建奠定了基础.文献 提出 D R N(Dr e c u r r e n tr e c o n s t r u c t i o nn e u r a ln e t w o
15、 r k)网络,该网络构造了卷积神经网络和长短期记忆(l o n gs h o r t t e r m m e m o r y,L S TM)相结合的编解码器架构,通过投影操作将相机参数编码到网络中,输出三维网格来重建三维场景.文献 提出了S u r f a c e N e t网络,该网络通过将相机参数和图像以三维体素共同编码表示构建的卷积神经网络,其核心优势在于能够解决多视图立体中的图像一致性和几何相关性问题.这两种方法都使用了基于体素的方法,重建中需要耗费大量显存,只适用于小规模场景的三维重建.文献 提出MV S N e t,该方法参照了传统平面扫描法的策略,基于参考视图的相机视锥体构建三
16、维代价,然后使用三维卷积对代价体进行正则化,回归得到深度图.由于是第一个完整的基于深度学习多视图立体重建方法,MV S N e t已经成为其他基于深度学习的多视图几何重建的基准.文献 提出了R MV S N e t,此网络将三维卷积神经网络(DC NN)替换成门控循环单元(G RU)进行正则化,极大降低了显存的消耗,但同时增加了重建时间.文献 提出P MV S N e t,主要创新点在于提出了基于区域匹配置信度的代价体,通过学习的方式将每个假想面上的特征匹配置信度聚合变为一个向量而非常量,从而提高了匹配的准确度.文献 提出了一种基于跨视角一致性约束的无监督深度估计网络U n s u p e r
17、 v i s e d MV S N e t,该网络提出了一种无监督的方法来训练网络,并且利用多个视图之间的光度一致性和像素梯度差异作为监督信号,来预测深度图,取得了不错的重建结果.文献 提出一种直接基于点的匹配代价正则化方法 P o i n t MV S N e t,该网络的核心是把三维几何先验知识和二维纹理信息融合到特征增强点云中,得到的重建结果精度更高,效率更优.文献 提出AA RMV S N e t,该网络提出自适应逐像素视图聚合匹配代价模块,能够在所有视图之间保留更好的匹配代价体,克服了复杂场景中弱 纹 理 和 遮 挡 的 问 题.文 献 提 出E F MV S N e t,该网络仍然
18、以MV S N e t为基本框架,在深度图优化阶段引入边缘检测模块来预测深度图边缘像素的偏移量,并通过多次迭代得到最终深度估计结果.虽然深度学习多视图立体重建具有很强的学习能力,能够挖掘更多的图像潜在特征,在特征匹配时具有更高 的准确性,进 而 得 到 更 优 的 结 果.但是由于其特征提取结果未将不同尺度图像特征进行聚合,得到的结果仅仅是输入图像经过连续下采样后的输出,并且匹配代价体在正则化后仍然存在离群点问题,将会影响加权回归得到的深度图,进而影响整个重建的准确性和完整性.为此,本文在深度学习网络基础上提出自适应聚合和代价自学习的多视图立体重建,提高重建结果的完整性和整体性.张晓燕等:自适
19、应聚合和代价自学习的多视图立体重建 多视图立体重建网络架构的建立虽然MV S N e t网络可以得到不错的重建结果,但该网络仍忽略了聚合不同尺度特征信息和匹配代价体优化.为了解决上述问题,本文设计了一个自适应聚合特征提取模块,针对标准卷积具有固定感受野,在弱纹理和无纹理区域特征提取困难的问题,使用可变性卷积来自适应调整感受野的大小,并且将不同尺度的具有不同纹理丰富度的图像特征聚合,提升纹理特征提取的丰富度.同时,设计了一种代价自学习模块,针对匹配代价体中存在的离群点问题,通过使用可变形卷积来改变卷积核形状,为离群点寻找一些可靠且关系密切的相邻点,用相邻点的代价分布来替代离群点的代价分布,从而提
20、升匹配代价体的准确性.本文设计的多视图立体重建网络架构如图所示.从图中可看出本文工作主要包括:)引入一个自适应聚合特征提取模块,通过可变形卷积自适应地聚合具有不同纹理丰富度的特征区域;)引入一个代价自学习模块,通过可变形卷积自适应优化匹配代价体离群值.图网络整体架构F i g O v e r a l l f r a m e w o r ko fp r o p o s e dn e t w o r k 自适应聚合和代价自学习的多视图立体重建本文的多视图立体重建网络实现包含以下主要步骤:自适应聚合特征提取、匹配代价体构建、匹配代价体正则化、代价自学习、深度图估计和优化以及损失函数选定,最后得到优化
21、后的深度图.自适应聚合特征提取由于标准卷积具有固定的感受野,在面对弱纹理和无纹理区域时无法有效地提取出较好的特征结果.为了 弥 补 这 个 不 足,本 文 引 入 了 可 变 形 卷积 进行自适应聚合特征提取.可变形卷积是将标准卷积的卷积核在每个空间采样位置上都增加一个 D偏移量.通过这些偏移量,使得卷积核可以在每个空间采样位置附近自适应地采样,而不再局限于规则格点.因此,可变形卷积可以自适应地调整尺度或者感受野的大小,提取到更多有效的目标区域特征.可变形卷积和标准卷积的卷积核形状对比如图所示,图(a)为标准卷积的卷积核形状,图(b)、(c)和(d)为可变形卷积的卷积核形状,其中蓝色的点是新的
22、卷积点,箭头是位移方向.图卷积核对比图F i g C o m p a r i s o no f c o n v o l u t i o nk e r n e l探 测 与 控 制 学 报本文设计的可变性卷积自适应聚合特征提取模块结构如图所示.该模块使用了 层结构的卷积层,其中,从第三个卷积层开始,每隔个卷积层步长均除以,得到的特征图大小分别为原尺寸分辨率的、/、/和/.对于每种尺度特征,都是经过三层卷积处理得到的,最后四种特征均通过可变形卷积自适应处理并经过双线性插值沿特征维度进行堆 叠,得到最 终的输出特 征图,其维度 为H/W/.可变形卷积定义如下:f p()kwkf(ppkpk)mk,(
23、)式()中,f(p)表示像素点p的特征值,wk和pk分别表示卷积核参数和偏移量,pk和mk分别表示可变形卷积的可学习子网络自适应产生的偏移量和调制权重.图自适应聚合特征提取F i g F e a t u r ee x t r a c t i o no f a d a p t i v ea g g r e g a t i o nm o d u l e 匹配代价体构建得到输入图像的特征后,通过单应性变换将源图像与参考图像建立映射关系,以此构建匹配代价体.假设I为参考图像,IiNi为与I进行多视角立体匹配的匹配视图,Ki,Ri,tiNi为各个视图对应的相机内参数、旋转矩阵和平移向量.以参考图像I为基
24、准,本文使用单应性变换将第i个视角对应的特征图Fi映射为与参考视图I对应的特征图F平行的平面,单应性变换公式如下:Hid()KiRiItti()nTdRTKT,()式()中,d为深度值,K为相机的内参数,R为旋转矩阵,RT和KT为转置矩阵,nT为平面法向量的转置.为了引入任意数量的输入视图,构建匹配代价体时使用基于方差的方法,以此来衡量各个视角构成的匹配代价体之间的相互关系.其计算公式为CM F,F,Fn()Ni(FiFi)N,()式()中,C是匹配代价体,N是输入视图的数量,Fi是所有特征体的均值.匹配代价体正则化由于真实场景中存在遮挡,得到的初始匹配代价体往往存在噪声.为了减弱噪声对结果的
25、影响,需要对得到的初始匹配代价体进行正则化.本文使用具有多尺度的 DC NN对匹配代价进行正则化,具体结构如图所示.由于匹配代价体是三维结构,因此仅仅对匹配代价体下采样两次,目的是为了减小正则化所需的大量内存.图匹配代价正则化F i g C o s tv o l u m er e g u l a r i z a t i o nm o d u l e张晓燕等:自适应聚合和代价自学习的多视图立体重建 代价自学习匹配代价体的优化方法一般通过使用普通的卷积网络预测残差来纠正离群值,但由于卷积核形状的固定性,普通卷积很难优化离群值.因此,为了解决这个问题,本文提出代价自学习模块,具体结构如图所示,利用可
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自适应 聚合 代价 自学习 视图 立体 重建