题名基于混合策略的维吾尔语形态还原技术的研究
作者穆妮热·穆合塔尔
答辩日期2019-05-24
授予单位中国科学院大学
授予地点中国科学院新疆理化技术研究所
导师李晓
关键词形态还原 词干词缀匹配 混合策略
学位名称博士
学位专业计算机应用技术
英文摘要

形态还原是自然语言处理领域里的一个研究重点,维吾尔语形态还原是牵扯到维吾尔语词法分析、维吾尔语句法分析、等复杂的语言形态有关系的研究领域之一。形态还原也是为机器翻译、文本生成、自然语言理解等研究领域的起重要的作用。维吾尔语是典型黏着性语言,具有数目比较庞大的词缀,而这些词缀缀加在单词词干后面,赋予单词在语义、时态等方面的信息。从形态学角度进行分析从而实现维吾尔语形态还原是在自然语言处理领域里具有非常重要的意义。近年来,在自然语言处理领域中,对于维吾尔语等低资源的研究引起了学术界相关领域的重大重视,其中语音识别及合成、汉维-维汉机器翻译等方面取得了突破性研究成果。但是,由于低资源语言研究起步相对晚,缺少完善的各种格式的标注语料及未标注语料等多方面的原因,进行更进一步的、更全面研究从开始到现在一直受到多方面的限制。本文从分析维吾尔语的语言形态特征着手,收集并整理了较全面的维吾尔语形态变化和词干词缀连接规则,探讨了目前缺乏的形态还原技术的实际情况,构建了面向维吾尔语形态还原的维吾尔语名词词干词缀搭配规则库,维吾尔语动词词干词缀搭配规则库等信息词典,实现了基于混合策略的维吾尔语名词词干还原方法及维吾尔语动词词干还原方法。实验结果表明,在训练语料库未完全标准化的情况下维吾尔语名词词干形态还原及维吾尔语动词词干还原率分别达到了63.38%和75.75%。除此之外本文从词语对齐、语言模型等多个方面探讨了维吾尔语复杂形态对于汉维机器翻译的影响,梳理了影响其翻译质量的因素。通过不同的实验及结果选取了最佳粒度的维吾尔语词干词缀切分形式。还从汉维/维汉机器翻译角度去探讨了维吾尔谚语,并且做出了基于词缀的维吾尔语谚语识别工具,其包含维汉翻译等功能,可有效解决维汉机器翻译当中固定语缀(谚语、成语等)未能直接翻译等现象。

页码91
内容类型学位论文
源URL[http://ir.xjipc.cas.cn/handle/365002/6006]  
专题新疆理化技术研究所_多语种信息技术研究室
推荐引用方式
GB/T 7714
穆妮热·穆合塔尔. 基于混合策略的维吾尔语形态还原技术的研究[D]. 中国科学院新疆理化技术研究所. 中国科学院大学. 2019.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace