CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 博士学位论文
题名基于主动学习的大规模复杂场景三维语义分割
作者荣梦琪
答辩日期2023-08-21
文献子类博士
关键词大规模 复杂三维场景 三维语义分割 主动学习
英文摘要

在计算机视觉、摄影测量、无人系统等研究领域,随着图像三维重建技术的快速发展,以及激光传感设备的应用普及,场景三维数据的获取变得日益便捷,使得计算机对周围环境的感知由二维感知开始向三维感知转变。
在这一背景下,三维语义分割作为一项基础而重要的任务应运而生,旨在准确地将三维空间中的对象划分为不同的语义类别。近年来,深度学习在图像语义分割任务上取得了显著进展,但对于复杂的大规模三维场景仍然存在诸多挑战。
首先,三维数据标注繁琐,手工标注成本高,导致可用于监督训练的大规模三维语义分割数据集十分匮乏;其次,在大规模三维场景中,通常包含数量众多且分布广泛的地物类别,难以构建通用三维分割模型适应各种类型场景;此外,在采用预训练模型微调以适应特定三维场景时,微调样本的选择策略通常也比二维任务更加复杂。针对这些问题,本文采取两项关键思想:第一是通过原始影像、渲染影像、正射影像等方式构建三维模型与多视角二维图像之间的对应关系,并通过先二维分割再三维融合的策略,实现大规模复杂场景的三维分割能力;第二是引入主动学习思想,通过三维分割不确定性以及特征多样性等度量,自动挑选难分二维样本,实现少量标注条件下的分割模型跨域跨场景适应能力。具体地,本文的主要工作及创新点总结如下:

1. 提出了一种基于原始影像的主动学习三维语义分割方法。
考虑到基于图像重建的大规模三维场景中,三维模型与二维图像具有严格的点云-像素关联性,本文首先在图像上进行语义分割,然后将分割结果投影到三维模型上进行融合,同时在融合过程中通过邻域语义一致性约束提高全局三维融合的鲁棒性。之后,对三维融合分割结果进行观测不确定性和观测离散度度量,并通过主动学习策略自动挑选少量难分图像样本进行标注,进而对图像语义分割网络进行微调。在三个由不同方式采集获取的室外大规模三维场景上的实验表明,该方法仅需标注少量图像即可实现对大规模三维场景的准确三维语义分割。

2. 提出了一种基于渲染影像的主动学习三维语义分割方法。
在基于图像重建的三维模型中,由于光照变化、动态物体干扰、相机位姿估计不准等因素,三维模型与原始影像的语义标签可能存在不一致,导致前述方法在全局三维融合时存在误差。针对这一问题,本文提出了一种基于渲染影像的方法,能够根据不同场景的特性选择恰当的渲染方式并生成任意位置的虚拟视角图像。此外,为解决三维语义分割中普遍存在的小类别样本不均衡问题,本文进一步在分割不确定性度量的基础上,提出了区域复杂性和类别多样性两种策略,使得主动学习过程具有更加平衡的数据选择能力。实验结果表明,该方法在大规模城市航拍场景和复杂室内场景中均取得了良好的分割效果,尤其提升了小类别物体的分割精度,并且具备发现未知类别的能力。

3. 提出了一种基于正射影像的主动学习三维语义分割方法。
多视角图像虽然能够更全面地捕捉三维场景信息,但冗余的图像在语义融合和主动学习阶段会导致巨大的计算负担。针对这一问题,本文提出了一种基于正射影像的方法,能够用较少的图像数据有效地呈现全局场景。此外,高分辨率图像在主动学习过程中并不需要对所有的像素都进行精确标注。对此,本文提出了一种自适应的联通区域计算方法,能够从图像中选择一些分割质量较低的不规则像素区域进行标注,进一步减少了标注数据的规模。实验结果表明,该方法显著提升了大规模三维场景语义分割的效率,并在准确性上优于基于多视角图像的方法。

4. 城市级大规模场景高效三维语义分割实践。
将理论方法和关键技术应用于实际生产和生活,进而解决真实场景中的关键问题,具有重要的意义和价值。本文以河南郑州作为真实案例,在大规模城市实景三维模型中验证了所提出的理论方法的可行性和实用性。实验结果表明,采用少量图像标注的方式,仍能够在大规模真实场景中快速且准确地实现语义分割,并且通过语义分割所获得的建筑物信息能够有效支持后续的矢量化建模任务,为三维数字模型的构建和地理信息系统的开发提高了有效的支持。

语种中文
页码144
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/52390]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
荣梦琪. 基于主动学习的大规模复杂场景三维语义分割[D]. 2023.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace