题名面向维汉神经机器翻译的序列生成关键技术研究
作者张新路
答辩日期2021-05-25
授予单位中国科学院大学
授予地点中国科学院新疆理化技术研究所
导师李晓
关键词神经机器翻译 序列生成 双向解码 知识蒸馏 非自回归模型
学位名称博士
学位专业计算机应用技术
英文摘要

不同地区、不同民族之间有着各自的语言和文化,随着社会的进步和发展,跨地区跨语言之间的交流和沟通变得越来越密切。人们期待通过机器实现不同语言之间的相互翻译,从而更好的实现跨语言之间的交流。机器翻译在这个背景下应运而生,成为了目前自然语言处理领域的研究热点。神经机器翻译是目前机器翻译领域占据主导地位的方法。在神经机器翻译中,研究人员采用编码器-解码器架构,编码器将源语言句子中的所有词语编码为连续的中间向量表示,解码器根据编码器的输出逐词产生目标端译文的输出。这种方式显著地提升了机器翻译任务的性能。虽然这种架构较为简单直接,译文的生成也较为顺畅。但是这种模型在序列生成时仍然存在一系列问题,例如常见的暴露偏差问题,即模型训练和解码的过程不匹配,这种不匹配会影响译文生成的质量;同时自回归的解码方式也会导致译文生成的多样性较差、生成效率较低等问题。针对在维汉神经机器翻译模型中存在的这些问题,本文从神经机器翻译的双向解码、翻译模型的训练以及译文生成效率这三个角度出发对其序列生成方式进行研究,主要包括以下几个方面:1. 目标端的双向解码重排序模型研究。传统的神经机器翻译模型在解码的过程中,当前步骤的解码依赖于上一时刻的解码输出,如果某些之前的序列没有正确预测,则会显著影响模型后半段的译文生成质量。因此,本文在解码阶段融入了反向解码的信息,利用集成学习策略首先生成高质量的候选翻译译文,然后使用反向翻译模型对这些候选译文进行基于交叉熵的重排序,进而实现目标端的双向解码。通过在维汉数据集上的实验验证,该方法相比于基线Transformer系统,提升了4.82个BLEU值。显著改善了维汉机器翻译任务的质量。2. 基于先验知识约束的神经机器翻译训练方法研究。对于机器翻译的序列生成问题,通常在模型训练的过程中使用最大似然估计算法鼓励模型生成与训练数据相一致的序列。但是由于语言的多样性和复杂性,通常一个词语会有多个与之具有相似语义的单词。最大似然估计算法忽视了词之间的相似性信息,将所有非目标词同等对待,这也是造成暴露偏差的原因之一。因此本文借助知识蒸馏框架,将词之间的相似性信息引入到模型的训练过程中,通过引入额外的相对熵损失来扩充最大似然估计损失,增强模型对相似词语之间建模的能力。通过在维汉数据集上的实验,证明我们这种方式可以从模型训练的角度提升机器翻译的性能。3. 基于非自回归的维汉神经机器翻译研究。模型的双向解码重排序以及基于先验知识约束的模型训练,都是基于自回归模型存在的缺点进行改进。然而自回归模型由于生成方向单一,不能充分利用上下文的信息,同时自回归的方式在解码时不能进行并行计算,影响译文生成的效率。因此我们探索了一种基于插入和删除的非自回归译文生成方式,该方法将译文生成分解为删除-插入-生成三个步骤。从而可以在迭代更新的过程中可以实现译文的动态编辑。同时每一个步骤都可以进行并行计算,提升了解码的效率。为了降低非自回归模型训练中数据集的复杂性,我们对维汉训练数据进行了序列级知识蒸馏训练。通过在维吾尔语-汉语蒸馏数据集和标准数据集上的实验,验证了该非自回归方法的有效性。本文重点针对维汉神经机器翻译序列生成存在的问题进行研究,从双向解码的整合、模型的训练、以及模型结构的改进三个方面开展工作。分别提出了解码端的重排序方法、基于先验知识约束的模型训练方法、以及基于插入和删除的非自回归解码方法。通过在相关数据集上的实验,在一定程度上缓解了现阶段存在的问题,提升了维汉神经机器翻译的质量和效率。

页码94
内容类型学位论文
源URL[http://ir.xjipc.cas.cn/handle/365002/7910]  
专题新疆理化技术研究所_多语种信息技术研究室
推荐引用方式
GB/T 7714
张新路. 面向维汉神经机器翻译的序列生成关键技术研究[D]. 中国科学院新疆理化技术研究所. 中国科学院大学. 2021.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace