题名 | 维吾尔语形态分析及其在神经网络语言模型中的应用研究 |
作者 | 徐春 |
答辩日期 | 2018-05-25 |
文献子类 | 博士 |
授予单位 | 中国科学院大学 |
授予地点 | 北京 |
导师 | 蒋同海 |
学位专业 | 计算机应用技术 |
英文摘要 | 自然语言处理是人工智能最热门的研究方向之一。在新疆针对维吾尔语的自然语言处理研究工作已开展了很多年,维吾尔语的形态分析是一个基础关键性的研究课题,它类似于中文信息处理中的“分词”任务,是各类自然语言处理任务的基础,直接影响着维吾尔语的信息检索、文本分类及语音识别等应用软件系统的效率和成败。语言模型也是自然语言处理研究工作的基础,它的任务就是在给定一个词序列的情况下,对这个序列出现的概率进行估计,在词性标注、机器翻译等任务中发挥着重大的作用。本文针对这两个基础性的工作进行了融合研究,首先研究了维吾尔语的形态分析,进行词切分,提高准确率。其次,进一步将切分好的词素(词干+词缀),输入已构建好的神经网络语言模型,来提升语言模型的性能。在前人研究的基础上,本文的研究工作及创新点主要体现在以下三个方面:1.从维吾尔语的形态分析入手,以提高词切分准确率为目标,先是研究了一种机器翻译模型,把切分前的维吾尔词语看作源端,把切分后的词素或词性标注看作是目标端,词切分准确率达到了82.42%。2.为了进一步提高词切分准确率,提出了维吾尔语形态分析的图状建模方法,不仅考虑了词语内部形态成分之间的关联性,还考虑了相邻词语的形态成分之间的关联约束,进一步提高词切分准确率达到95.67%。3.构建基于维吾尔语形态分析的循环神经网络语言模型,将切分好的词干、词缀看作词素与词一起,通过Word2vect生成词向量和词素向量,输入神经网络语言模型,提高语言模型的能力。本文中提出的方法还可以运用到其他黏着语(比如哈萨克语),后续还可以将注意力机制引入到语言模型中,利用注意力机制挖掘维吾尔语句子中的历史词与当前词的关系;或者针对维吾尔语词内结构特性,研究算法自动深入地学习维吾尔语的构词规律,设计适合的卷积神经网络结构,挖掘词干词缀之间的局部相关信息,进一步加强维吾尔语神经网络语言模型。 |
页码 | 84 |
内容类型 | 学位论文 |
源URL | [http://ir.xjipc.cas.cn/handle/365002/5638] |
专题 | 新疆理化技术研究所_多语种信息技术研究室 |
推荐引用方式 GB/T 7714 | 徐春. 维吾尔语形态分析及其在神经网络语言模型中的应用研究[D]. 北京. 中国科学院大学. 2018. |
个性服务 |
查看访问统计 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论