基于深度学习的视觉里程计与视觉定位技术研究

CORC > 自动化研究所 > 中国科学院自动化研究所 > 模式识别国家重点实验室 > 机器人视觉团队

题名	基于深度学习的视觉里程计与视觉定位技术研究
作者	万一鸣
答辩日期	2020-05-26
文献子类	硕士
授予单位	中国科学院大学
授予地点	中国科学院自动化研究所
导师	高伟
关键词	请输入关键词
学位专业	模式识别与智能系统
英文摘要	相机位姿估计是移动机器人、自主导航以及增强现实中的重要环节。位姿估计通常可以分为两种：绝对位姿估计和相对位姿估计。给定一张图片，绝对位姿估计计算全局坐标系下的相机拍摄位姿，通常称之为视觉定位；相对位姿估计则计算帧间的相对位姿，通常称为视觉里程计。近年来，深度学习发展迅速，广泛应用于人脸识别、目标跟踪等领域，将深度学习技术应用于视觉位姿估计也得到越来越多的关注。本文针对基于深度学习的单目视觉里程计和视觉定位技术进行研究，主要创新成果如下：在单目视觉里程计方面，针对现有网络泛化性能差的问题，提出了一种基于多任务学习的视觉里程计模型。该模型在回归相对位姿的同时，将光流预测作为辅助任务。这种多任务学习的方式，能够使网络挖掘到任务间的内在相关性，学习到更好的运动特征，从而避免过拟合的风险。实验表明，本文提出的方法能够有效地提高网络的泛化能力。针对视觉里程计容易受到场景中动态物体影响的问题，提出了一种基于对极约束的动态物体感知的视觉里程计模型。该模型通过对极约束估计动态物体的掩膜，减小该部分区域光度误差信号的权重，从而削弱其对梯度更新的影响。为了解决循环神经网络的输出过于平滑的问题，该模型还通过提出的LCGR（Local Convolution and Global RNN）模块来强化图像序列的局部信息并统筹全局信息。实验表明，本文提出的方法能够有效地提高相对位姿估计的精度，并且使得网络在含有大量运动物体的场景中拥有更强的鲁棒性。在视觉定位方面，针对稀疏训练数据容易导致网络过拟合的问题，提出了一种基于在线几何数据增广策略的端到端视觉定位方法。该方法首先通过半监督的方式估计图像深度，然后随机合成新视角下的图像，从而实现了训练数据的增广。此外，本文提出了一种几何一致性损失函数同时优化绝对和相对位姿。实验表明，本文提出的增广策略能够使得网络学习到更加通用、有意义的视觉特征。相比传统的随机剪裁增广策略，本文的方法在位置和旋转方面的中值误差分别相对降低了77.1% 和66.0%。
语种	中文
页码	80
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/39139]
专题	自动化研究所_模式识别国家重点实验室_机器人视觉团队
推荐引用方式 GB/T 7714	万一鸣. 基于深度学习的视觉里程计与视觉定位技术研究[D]. 中国科学院自动化研究所. 中国科学院大学. 2020.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们