题名机票行程单拍照识别技术研究
作者蒋经中
答辩日期2021-11-26
文献子类硕士
授予单位中国科学院自动化研究所
授予地点中国科学院自动化研究所
导师肖柏华
关键词机票行程单+文字检测+文字识别+数据增广+轻量化模型+结构化数据输出
学位名称工程硕士
学位专业计算机技术
英文摘要

随着科技的发展进步以及综合国力的不断提升,我国民用航空运输行业获得了巨大的发展机遇和发展空间,也取得了重大的发展成就。改革开放以来,人民生活水平日渐提高,飞机成为人们出行越来越重要的交通工具。航空运输电子客票行程单(本文称为“机票行程单”)作为一种运输合同,是旅客购买航空运输电子客票的付款及报销凭证。200871日新版行程单正式启用,然而由于某些方面的原因,目前机票行程单的报销业务仍然处于从纸质化向电子化的过渡阶段。本文旨在通过拍照技术获取的机票行程单照片,利用深度学习技术实现机票行程单关键信息识别及结构化输出,从而实现纸质版机票行程单自动化、智能化的财务报销,进一步推动报销业务的电子化。

深度学习技术的发展为我们实现机票行程单拍照图片的识别提供了有力的研究工具,然而由于机票行程单自身所具有的复杂性,以及拍照取像过程中所引入的复杂性,使得对票面关键文字信息的检测与识别,以及后续的识别结果结构化输出均面临较大的挑战。同时,本文所提出的模型是否足够轻量,从而使得其能较好地部署在移动端及嵌入式设备,也是我们需要重点考虑的问题。针对上述问题,本文进行了一系列的实验研究,主要内容如下:

1. 为了避免票面套打内容及票面以外的背景文字信息的干扰,本文设计了定位块检测模块,实现对票据的框取,为票面关键文字信息的检测和关键信息识别结果的结构化输出提供坐标约束,提升模型的检测和识别性能。该方法基于性能优秀的YOLOv5算法实现。

2. 针对机票行程单底版信息的复杂性,本文实现了一种关注内容的轻量化文字检测方法。该方法基于EAST算法,采用了轻量级的FairNAS-B作为主干网络,并在特征融合层进行了相应的改进。同时,为了消除小样本、样本不均衡问题,本文采用了数据增广策略来增加训练样本的多样性。实验证明该方法在模型大小和检测性能上都具有较好地优势。

3. 为了实现机票行程单票面关键文字信息的识别,同时考虑到模型的轻量化要求,本文在文字检测的基础上,设计并实现了一种基于CNN的单字识别模型。实验通过单字生成的方式进行数据增广,并用于模型训练。实验证明,该模型在识别精度、识别速度和模型大小方面都具有一定的优势。

4. 为了将票面关键文字信息对应到机票行程单上的相关条目,本文结合文字识别的结果,利用定位块提供区域约束,减少了关键信息与条目对应错误的情况发生。并将前文的定位块检测模型、单字检测模型、单字识别模型进行集成,实现了一种用于机票行程单拍照图片关键信息结构化输出的应用程序。该应用程序能够有效实现机票行程单从拍照获取到关键信息结构化输出的功能。

语种中文
页码83
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/46630]  
专题自动化研究所_复杂系统管理与控制国家重点实验室_影像分析与机器视觉团队
推荐引用方式
GB/T 7714
蒋经中. 机票行程单拍照识别技术研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2021.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace