基于卷积神经网络的视觉目标跟踪算法研究

CORC > 自动化研究所 > 中国科学院自动化研究所 > 模式识别国家重点实验室 > 视频内容安全团队

题名	基于卷积神经网络的视觉目标跟踪算法研究
作者	李振邦
答辩日期	2021
文献子类	博士
授予单位	中国科学院自动化研究所
授予地点	北京市海淀区中关村东路95号
导师	胡卫明
关键词	视觉目标跟踪深度学习卷积神经网络孪生网络相关滤波
学位专业	模式识别与智能系统
英文摘要	视觉目标跟踪是计算机视觉领域中最重要和最具挑战性的研究课题之一，在智能监控、自动驾驶等领域有着广阔的应用前景。视觉目标跟踪任务的核心是估计图像序列的每帧中目标的运动状态。目标跟踪是计算机视觉领域的中层部分，为目标的行为理解提供了基础，因此具有非常重要的理论研究价值。同时，它具有广泛的实际应用，包括视频监控、交通流量监控、视频压缩和人机交互等。然而，目标跟踪领域存在很多理论和技术问题有待解决，如运动模糊、光照变化、非刚性目标的形变、视角的变化导致的目标旋转、遮挡等。近年来深度学习的突破为解决目标跟踪中的一系列问题带来了可能。深度学习是基于人工神经网络的机器学习方法。在过去的十年中，深度学习技术得到了飞速发展，已成功应用于计算机视觉、语音识别、自然语言处理、社交网络过滤、机器翻译、生物信息学、药物设计等领域。如何利用深度学习方法，尤其是深度卷积神经网络解决跟踪过程中遇到的复杂问题，具有较大的研究价值和研究空间。本文利用卷积神经网络强大的表征能力，对视觉目标跟踪算法的特征表示、表观模型建模、运动模型建模、模型自适应等方面进行了改进，有效提高了算法的性能。同时，本文将对抗性信息应用到视觉目标跟踪任务中，以研究视觉目标跟踪算法相对于对抗样本的鲁棒性。本文的主要工作和贡献概括如下：•提出了一种语义信息引导的视觉目标跟踪算法。该算法利用卷积神经网络获得目标的语义信息，用于约束跟踪器的训练过程，从而提高跟踪的效果。具体而言：首先，本文提出了实例引导的相关滤波器，利用卷积神经网络学习图像的实例级别的语义分割模板，从而约束相关滤波器的学习。其次，针对离线训练的语义分割结果和在线学习的相关滤波结果具有互补性这一特点，本文提出了跟踪结果的自校正机制，利用分割结果校正相关滤波结果。本文在多个具有挑战性的视觉目标跟踪数据库上验证了这些创新点在视觉目标跟踪应用中的有效性。•提出了一种空间信息增强的视觉目标跟踪算法。该算法主要在运动模型方面对基于孪生网络的视觉目标跟踪算法进行优化。具体而言：本文为孪生跟踪网络引入了更丰富的空间信息，即始终在整个图像平面内感知物体的位置信息，能够弥补传统的局部搜索机制中目标搜索范围有限的缺点，从而有效地减少累积误差并提高鲁棒性。为了进一步减轻近似物体的干扰，本文提出了一个端到端训练的轨迹预测模块，能够利用物体的历史轨迹信息和当前帧的表观信息，预测目标在当前帧的每个空间位置上出现的可能性。本文在多个视频跟踪标准评测库上验证了这些创新点的有效性，并大幅度提高了跟踪算法的准确性和鲁棒性。•提出了一种时间信息增强的视觉目标跟踪算法。该算法主要在特征提取方面对基于孪生网络的视觉目标跟踪算法进行优化。首先，本文从基于孪生网络的在线视频跟踪算法鲁棒性不足问题出发，将时间信息引入在线视觉目标跟踪中。通过来自相邻帧的目标表观信息的聚合，使得目标表观特征更加丰富，弥补基于孪生网络的视觉目标跟踪算法局限于从单帧提取目标表观，对目标表观表示能力不足的缺点，从而提高跟踪的效果，实现鲁棒的跟踪。在端到端时间聚合的基础上，本文通过引入对抗性杄杲杯杰杯杵杴模块，并通过在大规模数据集上端到端训练，使得孪生网络跟踪器在目标由于运动模糊等导致的表观不佳的情况下具有更好的表现，从而进一步提高跟踪的鲁棒性。本文在目前流行的视觉目标跟踪评测库上进行了算法的对比实验以及成分分析实验，从而验证算法改进的有效性。•提出了一种自适应信息增强的视觉目标跟踪算法。该算法主要在模型自适应方面对基于孪生网络的视觉目标跟踪算法进行优化。本文为孪生跟踪网络引入了自适应信息，通过对模板图像的像素进行轻微扰动，从而改善孪生网络跟踪器对于特定目标的跟踪性能。该自适应性信息通过对模板图像进行梯度的反向传播计算得到，能够以即插即用的方式轻松添加到现有孪生网络跟踪器中，而无需修改网络模型的参数。在线跟踪时，仅在第一帧进行数次梯度传播和模板图像像素值更新，即可实现实时目标跟踪。本文同样在多个视觉目标跟踪评测库上验证了算法的有效性，并在精确度与实时性上取得了较好的结果。•将对抗性信息应用于基于孪生网络的视觉目标跟踪算法。该算法将对抗性信息应用到孪生跟踪网络中，以研究视觉目标跟踪算法相对于对抗样本的鲁棒性。具体而言，本文为基于孪生网络的视觉目标跟踪算法生成视频无关的通用扰动，从而使得跟踪器做出错误的行为。所提出的对抗性扰动信息通过离线的大规模视觉目标跟踪数据集训练得到，可在占用极少计算资源的情况下对任意视频进行有效攻击。本文在多个视觉目标跟踪标准评测库上验证了所提出的对抗性信息的有效性，同时验证了其在不同主干网络和不同跟踪框架之间的可迁移性。
语种	中文
页码	130
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/46610]
专题	自动化研究所_模式识别国家重点实验室_视频内容安全团队
推荐引用方式 GB/T 7714	李振邦. 基于卷积神经网络的视觉目标跟踪算法研究[D]. 北京市海淀区中关村东路95号. 中国科学院自动化研究所. 2021.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们