CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 博士学位论文
题名面向多语义和多模态的视觉目标检测研究
作者杨力
答辩日期2023-05-24
文献子类博士
关键词目标检测 指代目标检测 多语义 多模态 视觉-语言
英文摘要

目标检测是计算机视觉领域最为基础和重要的研究方向之一,其主要任务是从输入图像中识别和定位出感兴趣的物体。目标检测算法是许多计算机视觉任务的核心方法和基础,并广泛应用于自动驾驶、安防监控、人脸识别、医学图像等众多领域,因此受到了广泛的研究和关注。近年来随着深度学习技术的发展,目标检测领域取得了长足的进步,其应用场景和功能界限也在不断拓展。在现实场景中,一个物体往往可以被多种语义和模态所表示,即它既可以由类别、属性、环境上下文等多层级语义信息进行定义和描述,也能以文本、图像、三维点云等多种维度和粒度的数据形式呈现。研究多语义和模态表示下的目标检测问题,一方面可以拓宽物体感知的语义空间,另一方面它能够适用于不同的数据场景,从而丰富目标检测的应用方式和范畴,具有重要的研究意义。因此,本文围绕多语义和多模态的目标检测问题,分别从“目标检测的分类和定位解耦优化”、“目标开放语义信息的理解感知”、“目标三维上下文信息的显式学习”三个方面展开了方法研究。本文的主要贡献概括如下:

1. 提出了基于预测解耦机制的单阶段目标检测方法

本文首先分析了传统单阶段检测方法,发现模型进行物体分类和定位预测 的最佳位置通常不同,所以从同一格点位置对目标进行分类和定位容易导致次 优结果。针对这一问题,本文提出一种基于预测解耦机制的目标检测算法。该方 法将对物体的预测目标分解为物体类别和四边界位置,由网络在不同位置进行 编码学习。同时,本文设计了可学习的预测收集模块,能够灵活地从不同位置收 集并聚合分类和定位预测,实现不同预测目标(即物体类别和边界位置)的推理 过程解耦。而且,本文还设计了两步生成策略来学习构建两组动态点,即动态边 界点和动态语义点,以建模更好感知物体边界或语义信息的位置,用于指导更优 分类和定位预测的收集和聚合。本文提出的预测解耦机制具有极小的计算开销, 在保持模型高效推理能力的同时显著提高了模型的目标检测性能。

2. 提出了基于视觉-语言验证和迭代推理的指代目标检测方法

针对目标开放语义信息的理解感知,本文提出了一种基于视觉-语言验证和迭代推理的指代目标检测框架。该框架在特征建模和推理过程通过充分地建模视觉和文本之间的语义关联,以完成对文本所指代目标物体的检测。具体而言,在特征建模过程中,本文设计了一个视觉-语言验证模块,通过对视觉和文本模态特征之间的细粒度相关性进行验证,使视觉特征关注于与文本语义信息相关联的区域,减少无关物体或区域的干扰。同时,模型引入了一个语言引导的上下文编码器,根据文本提供的描述信息,来聚合所指代目标的上下文特征,提高目标的特征判别性。最后,本文构建了一个多级跨模态解码器,对文本和视觉特征进行迭代的查询和推理,从而准确关注到文本所指代的目标并完成目标定位。本文通过在特征建模和推理过程中充分关联视觉和语言的语义信息,能够显著提高指代目标检测性能,在多个公开数据集上取得了领先结果。

3. 提出了基于上下文物体和关系学习的三维指代目标检测方法

本文提出了一种基于上下文物体和关系学习的指代目标检测框架,用于三维场景中的开放语义目标检测。该框架在检测过程中聚焦于对齐文本和视觉中的物体和上下文信息,以实现准确的指代目标检测。具体而言,本文首先设计了基于文本的物体检测网络,并提出一种伪标签自生成与学习策略,使物体检测网络能够根据文本信息同时实现对目标物体和上下文物体的检测学习。基于物体检测结果,本文构建了多种空间关系特征作为初始特征,并输入到上下文关系匹配网络中,该网络利用弱监督学习方式对文本语义相关的上下文关系特征进行匹配和学习。最后,本文构建了一个基于上下文的目标推理网络,对物体检测结果引入上下文关系特征,并与文本中关于目标及其上下文的描述信息作细粒度对齐,从而准确地推断出指代目标物体。本文通过大量实验验证了基于上下文学习方法的有效性,并在多个公开数据集上取得了领先的性能。

 

语种中文
页码138
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/52122]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
杨力. 面向多语义和多模态的视觉目标检测研究[D]. 2023.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace