CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 博士学位论文
题名单目标跟踪中的智能评估技术研究
作者胡世宇
答辩日期2023-11-23
文献子类博士
关键词单目标跟踪 智能评估技术 视觉跟踪能力 实验环境 评估平台
英文摘要

       单目标跟踪任务是指在一段视频序列的首帧任意指定一个运动目标,并在后续帧对其进行持续定位。作为计算机视觉的基础研究方向之一,单目标跟踪通过对人类动态视觉系统进行建模,使机器能够在复杂环境中具备类人的跟踪能力,并在智能监控、自动驾驶、智慧交通等应用场景中发挥重要作用。经过数十年的研究,跟踪算法已经在代表性实验环境中表现出良好的性能,但其在真实环境中的多样化挑战因素面前依旧缺乏鲁棒性,相比于人类的视觉跟踪能力仍存在较大差距。究其原因,目前单目标跟踪领域更着眼于算法设计,而评估技术的相关研究则相对较少、发展相对滞后,且难以深入挖掘当前算法的能力瓶颈问题。虽然部分研究从构建评测环境和设计评测指标的角度开展工作,但仍主要关注于如何度量跟踪算法的性能,忽略了对算法智能水平的评估,最终导致同一算法在实验环境和真实场景中表现出较大的性能差异。针对上述问题,本文从现有评估技术的局限性出发,对一个完整的智能评估系统所涉及的各个关键环节(评测任务、评测环境、任务对象和评估机制)开展研究,旨在探索单目标跟踪智能评估的更优解决方案。本文的研究工作归纳如下:

        (1)大规模多维度全局实例跟踪智能评估平台。在复杂场景尤其是对抗环境下,大量在实验环境表现优异的单目标跟踪算法依旧与人类动态视觉能力存在鸿沟,这表明合理的评测方式不应局限于“机-机”的性能对比,而更应将“人”的因素加入到评测回路中。针对上述问题,本工作首先将单目标跟踪任务拓展为全局实例跟踪任务,旨在对人类动态视觉能力进行精确建模。在此基础上,本工作提出6D准则作为视频内容解耦框架,并构建一个包含746万帧的大规模多维度全局实例跟踪智能评估平台。本平台包含目前规模最大的单目标跟踪数据集,其具有丰富的镜头切换和场景转换,旨在为算法研究提供一个近似真实应用场景的高质量环境。最后,本工作从“人机对抗”的视角出发,基于视觉图灵测试思想引入人类被试,并对人类被试和20个代表性跟踪算法的动态视觉能力进行评估,旨在以人类的动态视觉能力为基准度量算法的智能性。截止2023年11月,本平台已获得130余国家和地区23.6万余次的访问,并获得包含中国科学院、北京大学、斯坦福大学、阿里巴巴在内的国内外科研机构和企业用户总计1073次下载,注册并评估374个单目标跟踪算法,具有一定代表性。

        (2)用户自定义的单目标跟踪任务空间。实现类人的动态视觉能力是单目标跟踪的研究目标。虽然研究者已经构建若干数据集和评估平台,但是彼此孤立的数据集导致研究者难以有效利用高挑战性的数据开展鲁棒性研究,而基于求均值形式设计的评测指标会导致困难帧因占比较低而被忽略。针对上述问题,本工作首先提出3E范式作为任务分析框架,对包含工作(1)在内的代表性数据集进行整合,将原本静态封闭的数据集融合为一个包含1256万帧的动态开放数据空间,并在此基础上提出子空间构建算法,旨在帮助研究者开展自定义的任务研究。此外,本工作针对现有评测技术的局限性提出全新的评测系统和评价指标,以适配不同的评测需求和任务对象,并通过大量的实验对23个代表性算法开展细粒度的分析,有效挖掘出不同架构的算法在应对各项挑战因素时的性能瓶颈。

        (3)基于视觉图灵的单目标跟踪智能评估技术。计算机科学家通常使用大规模数据集来评估机器模型,而神经科学家通常使用简单的实验环境来评估人类被试,导致“人-机”难以被纳入统一的评测框架进行对比和分析。针对上述问题,本工作从工作(1)提出的视觉图灵评估思路出发进行拓展,并基于工作(2)提出的用户自定义单目标跟踪任务空间开展研究。本工作首先构建了一个可以公平对比人机动态视觉能力的实验环境,该环境由87段具有较高代表性的视频序列构成,全面覆盖单目标跟踪的各项子任务,并充分考察任务对象的感知能力、认知能力和鲁棒跟踪能力。在此基础上,本工作选择20个具有不同架构的算法和15位人类被试作为任务对象开展动态视觉能力的测试,并设计了一套人机通用的动态视觉能力评估框架。最后,本工作从“人机对抗”和“人机协作”的角度开展了细粒度实验分析。实验结果表明,代表性跟踪算法在逐步缩短和人类被试的差距,且人机在动态视觉任务中各有所长,二者存在较大的合作潜力。

       (4)基于层级化语义框架的多模态全局实例跟踪任务基准。单目标跟踪算法在面对包含复杂因果关系和时空关系的长视频时,通常难以维持鲁棒性。虽然部分研究尝试引入语言模态来辅助跟踪,但它们通常选用叙事内容简单的短视频,且提供的语义标签存在语义信息歧义和语法结构残缺。针对上述问题,本工作首先构建一个包含复杂视频叙事内容的多模态全局实例跟踪基准,其中视频序列的平均时长为现有的多模态单目标跟踪基准的5-22倍。此外,本工作结合人类认知的层级化结构,创新性地提出一种多粒度的语义信息标注策略,旨在提供高质量的语义信息。与其他多模态单目标跟踪基准的对比实验表明,本工作提出的多粒度标注策略是将人类长视频理解能力与语义标签相耦合的可行方案。最后,本工作进一步提出一套适配于多模态单目标跟踪任务的评测机制,并基于该评测机制对不同结构的单目标跟踪方法进行详细的实验分析,从而深入挖掘多模态单目标跟踪算法的性能瓶颈。

语种中文
学科主题计算机感知
页码192
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/54535]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
胡世宇. 单目标跟踪中的智能评估技术研究[D]. 2023.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace