CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 博士学位论文
题名混合监督场景文本检测
作者赵梦彪
答辩日期2023-05-27
文献子类博士
关键词场景文本检测 弱标注数据 混合监督学习 水平集模型
英文摘要

场景文本检测旨在定位自然图像中文本的位置。近几年,许多基于深度学习的场景文本检测方法在水平文本、多方向文本以及任意形状文本等场景下都取得了优异的检测效果。但是这些检测器在训练阶段依赖大量精细标注的数据,昂贵的数据标注成本限制了文本检测算法在现实场景中的应用。为降低数据标注成本,有学者提出使用基于弱监督学习或半监督学习的方法,但是弱监督和半监督模型性能跟全监督模型差距明显,难以满足实际需求。因此,本文提出了混合监督学习策略,即在少量强标注数据基础上,混合大量其它数据(如不同标注格式的数据或弱标注数据等)来训练场景文本检测器,从而可以在检测性能和标注成本之间取得理想的折中。本文围绕混合监督场景文本检测这一主题,主要完成了如下创新性工作:

一、提出了一种基于相互指导双任务网络的场景文本检测方法。场景文本数据集标注格式不统一,目前领域内有两种主流标注格式:词级别标注和行级别标注。现有的场景文本检测器一般只能使用一种标注格式的数据进行训练,测试阶段也只能给出一种格式的结果。词级别检测和行级别检测被区别对待,这种做法忽略了两个任务之间的联系。本文提出了一种双任务网络,该网络使用两个检测器头分别处理词级别和行级别检测任务,实现了词级别标注数据和行级别标注数据的混合训练。此外,本文在两个检测器间引入了一种相互指导机制,实现了两个任务的相互指导、共同提高。实验结果显示,通过引入混合训练策略以及相互指导机制,检测器的词级别、行级别检测效果均获得了明显提升。

二、提出了一种基于期望最大化算法的混合监督场景文本检测方法。任意形状场景文本数据集一般采用多边形标注形式,其成本昂贵。为了缩减数据标注成本,本文从标注者角度出发,提出了一系列弱标注形式,主要包括紧致、宽松、粗糙矩形框,以及图像级别标签。同时,为了利用这些弱标注数据提升基础检测器的性能,本文提出了一种基于期望最大化(Expectation Maximization,EM)算法的混合监督场景文本检测框架。该框架主要由一种基于轮廓回归的两阶段场景文本检测器以及一种基于EM算法的混合监督学习策略组成。多个数据集上的实验结果显示,仅使10\%的强标注数据以及90\%的弱标注数据,本文提出的混合监督模型取得了接近全监督模型的性能。

三、提出了一种基于中心点标注的场景文本检测方法。大规模数据场景下,场景文本的多边形标注形式和矩形框等弱标注形式成本均十分昂贵,设计一种极简的标注形式成为了工业界的迫切需求。本文提出使用文本行中心点标注文本实例,该标注形式成本低廉且富含监督信息,非常适合大规模数据场景。此外,为利用中心点标注数据提升检测器性能,本文依然采用了基于EM算法的混合监督学习策略,同时提出了一种回归不确定度估计模块来估计伪标签的质量,并以此对伪标签的监督做加权,从而有效地抑制了噪声样本对模型优化的影响。多个数据集上的实验结果显示,基于中心点弱标注的混合监督模型性能相对于基线模型均有明显提升。

四、提出了一种基于水平集演化的场景文本检测方法。现有基于伪标签迭代更新的场景文本检测器弱监督或混合监督学习策略整体流程复杂、耗时较长。本文提出了一种基于水平集演化的端到端混合监督场景文本检测框架,该框架采用实例分割方式,针对多边形标注数据和矩形框标注数据,分别采用全监督的像素分类损失以及基于水平集能量函数的弱监督损失来训练分割网络,从而将多边形监督和矩形框监督统一在了一个场景文本检测框架中。此外,该框架还可以进行基于矩形框标注的弱监督训练。多个基准数据集上的实验结果显示,基于水平集演化的端到端混合监督场景文本检测模型可以达到接近全监督模型的性能。

语种中文
页码118
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/52230]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
赵梦彪. 混合监督场景文本检测[D]. 2023.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace