中文手写文本行识别

CORC > 自动化研究所 > 中国科学院自动化研究所 > 毕业生 > 博士学位论文

题名	中文手写文本行识别
作者	吴一超
答辩日期	2017-12
授予单位	中国科学院研究生院
授予地点	北京
导师	刘成林
关键词	中文手写文本行识别神经网络语言模型卷积神经网络形状模型递归神经网络识别框架
英文摘要	中文手写文本识别方法主要分为基于显式切分的方法和基于隐式切分的方法。虽然目前基于显式切分的方法占据主要地位，但是其中的语言模型和形状模型等各个模块有待改进。另一方面，基于隐式切分的递归神经网络识别框架可以克服显式切分识别系统过于依赖切分的缺陷，在拉丁语系文本识别中已经占据主导地位，但是在中文识别领域尚未显现优势。本文对两种不同的识别框架分别展开了深入的研究，贡献主要有以下几点： 1、将神经网络语言模型首次引入到基于过切分的中文手写字符串识别系统中。神经网络语言模型可以将词（字）从离散空间投影到一个连续空间中，并在该空间中对语言模型进行隐式的平滑以及序列概率的预测，从而可以建模高阶文法。实验中对神经网络语言模型在过切分识别系统中的作用进行了全面的评价，主要比较了前馈神经网络语言模型、递归神经网络语言模型和混合语言模型。结果表明，神经网络语言模型可以提升系统识别性能，混合递归神经网络语言模型可以得到最好的结果。 2、提出一种包含单字分类器、过切分以及几何模型在内的卷积神经网络形状模型用于过切分识别系统。其中，搭建了一个融入领域知识的15 层卷积神经网络作为字符分类器；提出了一种基于学习的两步过切分方法，将传统的基于前景点可见性分析的方法与滑动窗卷积神经网络分类器相结合，使得召回率有了进一步的提升；并且将几何上下文模型从传统的分类器转换为基于卷积神经网络的模型。在中文手写文本行识别实验中，基于本模型的识别系统在标准数据集上得到了最高识别性能。 3、在基于递归神经网络的识别框架中，提出了一种可分离二维递归神经网络模块。与传统二维模块相比，该模块可以有效地提取多方向的信息，同时可以消耗更少的计算资源。基于这种二维模块，设计了更深的网络结构，并且改良了解码算法。实验结果表明，本方法的精度比之前的同类型方法有了显著的提升。
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/19787]
专题	毕业生_博士学位论文
作者单位	中国科学院自动化研究所
推荐引用方式 GB/T 7714	吴一超. 中文手写文本行识别[D]. 北京. 中国科学院研究生院. 2017.