CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 硕士学位论文
题名基于自监督学习的单目深度估计方法研究
作者周正铭
答辩日期2023-05-24
文献子类硕士
关键词单目深度估计 自监督学习 深度神经网络
英文摘要

单目深度估计旨在根据输入的单幅图像预测相应的场景深度图,是计算机视觉领域中一个热门的研究主题,并在机器人导航、自动驾驶、增强现实等诸多领域展现出广阔的应用前景。基于深度神经网络的单目深度估计方法一般将深度估计视为一个像素级的回归或分类任务,依赖大量训练数据从图像中学习具有强判别力的像素级特征,并利用该特征预测深度图。为了摆脱单目深度估计模型在训练阶段对于场景深度真值数据的依赖,基于自监督学习的单目深度估计方法在近年来受到了广泛的关注。自监督单目深度估计研究中的一个核心问题在于如何从无标签的训练图像中学习到具有强判别能力的像素级特征,进而提升模型的性能。针对该问题,本文从场景深度约束方式、特征融合方式、任务融合方式三个角度展开研究,主要工作包括:

1.分析了文献中常用的连续深度约束方式与离散深度约束方式各自的优点与不足,并结合两者的优点提出了一种基于原型-残差的自监督单目深度估计网络。该网络使用两个分支分别学习一幅粗粒度场景深度图和一幅场景深度残差图,进而将两者之和作为最终输出的细粒度场景深度图。此外,该网络还引入了一个遮挡感知模块,以进一步缓解训练数据中遮挡区域带来的负面影响。在国际公开数据集KITTI和Make3D上的实验结果表明,所提出的基于原型-残差的自监督单目深度估计网络优于文献中多种主流的自监督单目深度估计方法。

2.针对场景特征融合问题,提出了一种基于自蒸馏特征聚合的自监督单目深度估计网络。该网络包含多个用于融合不同尺度场景特征的自蒸馏特征聚合模块。该模块通过三个分支分别学习三个特征偏移向量图:其中一个特征偏移向量图用于细化小尺度的特征,另外两个用于在自蒸馏的条件下细化大尺度的特征。为了使自蒸馏特征聚合模块可以更有效地融合多尺度特征,并保持特征的上下文一致性,设计了一种新的自蒸馏训练策略对网络进行训练。在国际公开数据集KITTI上的实验结果表明,所提出的基于自蒸馏特征聚合的自监督单目深度估计网络优于文献中许多主流的自监督单目深度估计方法。

3.分析了自监督单目深度估计与自监督双目深度估计任务之间的区别与相似之处,并结合两者的特点提出了一种能够同时处理这两个任务的单双目协同的自监督深度估计网络。该网络采用一种孪生网络结构,其中每个子网络都可以作为单目深度估计模型使用。为了能协同处理双目图像,完成双目深度估计任务,该网络引入一种单目特征匹配模块进行隐式的图像特征匹配。为了在训练阶段利用自监督单目和双目深度估计这两个任务各自的优势,引入一种分步联合训练策略对网络进行训练。在国际公开数据集KITTI、DDAD和Cityscapes上的实验结果表明,所提出的单双目协同的自监督深度估计网络能有效完成单目和双目深度估计任务,并在两个任务上都取得了有竞争力的性能。

综上所述,本文围绕基于自监督学习的单目深度估计提出基于原型-残差的自监督单目深度估计网络、基于自蒸馏特征聚合的自监督单目深度估计网络和单双目协同的自监督深度估计网络。所提出的方法有效缓解了文献中方法在深度约束、特征融合和任务融合方面存在的问题,有助于模型在自监督下学到具有强判别力的像素级特征,并提升其单目深度估计的性能。

语种中文
页码88
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/52054]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
周正铭. 基于自监督学习的单目深度估计方法研究[D]. 2023.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace