题名基于深度卷积网络的多目标跟踪方法研究
作者周宗伟
答辩日期2021-03-05
文献子类博士
授予单位中科院自动化研究所
授予地点中科院自动化研究所智能化大厦
导师胡卫明 ; 兴军亮
关键词深度学习 卷积神经网络 在线跟踪 多目标跟踪 实时跟踪
学位名称工学博士
学位专业模式识别与智能系统
英文摘要

多目标跟踪任务是指通过定位和关联多帧连续图像中具有相同身份的不同观 测获得多个目标运动轨迹的过程,在视频监控、视频内容分析、自动驾驶等领域有 着广泛的应用前景,一直以来都是模式识别和计算机视觉领域的一个热门研究方 向。基于检测的跟踪框架是目前研究多目标跟踪任务的主流框架,其包括逐帧的 目标检测、目标特征抽取和数据关联三个基本阶段。近些年,随着深度学习技术在 目标检测、分割、识别等多个计算机视觉领域中取得突破性进展,该技术也被广泛 引入到基于检测的跟踪框架中的各个阶段。尽管当前基于深度学习的多目标跟踪 方法取得了较大的性能提升,但其依然存在着许多问题,如密集场景中目标检测精 度不够理想、被遮挡目标表观特征鉴别性较差、跟踪速度很难满足实时性要求等。 本文充分分析了目前已有的基于深度网络的多目标跟踪方法,在基于检测的跟踪 框架的各个阶段展开探索,最终提出了一种高效鲁棒的在线多目标跟踪系统。

本 论文的主要工作和贡献概括如下:

1. 针对数据关联的局部性问题,提出一种基于高阶图匹配模型的在线多目标 跟踪方法 在基于检测的跟踪框架中,传统的数据关联方法一般仅考虑不同图像帧中处 于局部空间邻域内的目标关联,对于密集区域的匹配鲁棒性较差。为了能够更好 的利用轨迹与检测形成的关联之间的全局信息,本文提出了一种基于高阶图匹配 (High-Order Graph Matching, HOGM) 模型的在线多目标跟踪方法。在该模型中, 跟踪任务被形式化表述为分别由轨迹和检测形成的两个超图之间的匹配问题。我 们提出了一种具有双向单位 L1 范数约束的张量幂迭代算法求解该匹配问题。在匹 配过程中,关联能量同时融合了轨迹与目标间的表观相似度、运动一致性以及关 联之间的空间关系,能获得更鲁棒的关联结果。作为关联中最重要的特征,我们采 用孪生网络结构以度量学习的方式提取检测的深度表观特征。为了解决密集场景 中因包围框重叠带来的特征鉴别性下降问题,提取深度特征时,我们提出了一种 掩码池化算子能令提取的特征更侧重于目标可见区域以增强重叠目标的可区分性。 运动一致性能通过限制候选关联的空间距离抑制表观相似度较高但空间距离较远 时的错误匹配。关联之间的空间关系能够通过空间拓扑结构的稳定性保证空间距 离较近时的正确关联。在多目标跟踪基准库上的实验表明,与当时一些最新的跟 踪方法相比,基于高阶图匹配模型的在线多目标跟踪方法通过利用更加全局的时 空信息可以获得更好的跟踪性能,尤其是更好的轨迹稳定性。

2. 针对复杂场景中目标检测失败问题,提出一种用于在线多目标跟踪的干扰 感知鉴别学习网络 在基于检测的跟踪框架中,检测精度对跟踪器性能影响较大。为了抑制漏检、检测不精确等检测失败案例以提升跟踪性能,本文提出一种基于干扰感知鉴别学 习网络 (Distractor-aware Discrimination Learning Network, DDLN) 的在线多目标 跟踪方法。首先,该方法为每个目标创建了独立的干扰感知鉴别学习网络,其中包 括模板匹配模块和候选分类模块。模板匹配模块能通过局部检测弥补全局检测中 存在的漏检问题,候选分类模块能通过对候选区域的前背景分类来抑制轨迹的跟 踪漂移。其次,为了获得更鲁棒的模板,本文在 DDLN 中嵌入了一种基于轨迹历 史表观的关系注意力机制。再次,在端到端训练网络时,本文还提出了一种干扰敏 感损失函数,通过充分挖掘难分样本提升了密集区域中目标特征的鉴别性。最后, 本文基于 DDLN 设计了一种多阶段的在线多目标跟踪方法,在两个具有挑战性的 多目标跟踪库 MOT16 和 MOT17 上都取得了当时最好的跟踪性能。

3. 针对目标特征独立抽取的高复杂度问题,提出一种用于在线多目标跟踪的 长短时线索联合抽取网络 基于 DDLN 的多目标跟踪方法中,每个目标的独立处理导致跟踪速度慢、存 储空间大等问题,因此本文提出了一种用于在线多目标跟踪的长短时线索联合抽 取网络 (Long-Short Clue Extraction network, LSCE)。该网络以相邻帧图像为输 入,通过帧间特征的相关关系获得用于局部检测的位置、尺寸等短时线索,同时通 过特征金字塔结构获得用于处理跟丢轨迹的长时深度表观特征。在计算跟丢轨迹 与当前检测的表观相似度时,除了需要检测的深度表观特征,还需要获取轨迹的鲁 棒特征表示。本文提出使用主成分跟踪法从轨迹的历史深度表观特征中抽取其低 秩表示作为轨迹的特征。特征金字塔设计和轨迹特征的低秩表示都能减少遮挡对 表观特征鉴别性的损害。基于 LSCE 的跟踪方法以相邻帧图像作为输入,而不是 目标区域,能够获得几乎独立于跟踪目标个数的跟踪速度,相较基于 DDLN 的跟 踪方法在跟踪性能和速度上都取得了提升。基于 LSCE 的在线多目标跟踪方法在 两个常用的多目标跟踪数据库上都取得了当时最好的跟踪性能。

4. 针对跟踪框架中多阶段分离问题,提出一种用于在线实时多目标跟踪的改 进单阶段无锚框联合网络 为了进一步提升跟踪速度,本文将基于检测的跟踪框架中的目标检测和特征抽 取模块进行集成,提出一种改进的单阶段无锚框 (Anchor-Free One-Stage, AFOS) 联合网络,能够从共享特征图中同时进行目标检测和特征抽取。具体而言,该网络 能够基于基干网络的输出,在不同的任务头中对目标中心点的特征进行回归或者 分类以实现目标检测和特征抽取。考虑到来自于同一目标不同位置的特征之间的 强相关性,我们还提出一种可形变局部注意力机制对局部信息进行整合,进一步 同时提升了两项任务的性能。另外,考虑到任务之间的差异性,我们提出一种任务 敏感预测模块,使得不同的任务可以使用不同位置点的特征,从而更适合任务本 身以提升其性能。最后,我们将该模型嵌入到多级跟踪策略中,提出了一种高效的 在线多目标跟踪方法。该跟踪方法以实时的跟踪速度在多目标跟踪数据库 MOT16和 MOT17 上取得了与当前最好的多目标跟踪器相当的跟踪性能。 总的来说,本论文以解决自然场景中多目标跟踪任务的实际困难为目标,仔细分析了基于检测的跟踪框架的各个阶段,利用当前流行的深度学习方法,从多目标跟踪性能和跟踪速度两方面展开研究,最终提出一种在线鲁棒的多目标跟踪系统, 在多目标跟踪常用评测库 MOT17 上以 30 帧每秒的跟踪速度获得了很好的跟踪性能,拉近了多目标跟踪研究与实际应用的距离。

语种中文
页码145
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/44326]  
专题自动化研究所_智能感知与计算研究中心
通讯作者周宗伟
推荐引用方式
GB/T 7714
周宗伟. 基于深度卷积网络的多目标跟踪方法研究[D]. 中科院自动化研究所智能化大厦. 中科院自动化研究所. 2021.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace