篇章关系识别方法研究与应用

CORC > 自动化研究所 > 中国科学院自动化研究所 > 模式识别国家重点实验室 > 自然语言处理团队

题名	篇章关系识别方法研究与应用
作者	刘洋
答辩日期	2019-05
文献子类	博士
授予单位	中国科学院大学
授予地点	自动化研究所
导师	宗成庆
关键词	自然语言理解篇章关系识别接地语言学习基于经验的篇章因果关系识别基于期望的篇章转折关系识别
学位名称	工学博士
学位专业	模式识别与智能系统
英文摘要	人们通常将一系列具有语义关联的句子称为篇章。在日常生活中，人们习惯使用篇章表达意图与想法。其中，篇章关系（结构）扮演了一个非常重要的角色，它将篇章中各个部分关联起来，使得这些孤立的语段具有整体和连贯的语义，并直接影响篇章所要表达的意思。想要准确地理解篇章就必须正确地理解篇章关系。此外，研究指出，篇章关系信息也有利于下游自然语言处理任务。因此，篇章关系识别问题无论是从理论上还是从实践上都具有重要的研究价值。目前，主流的篇章关系识别的研究都采用了基于文本线索的方法。其核心思路是，调查和分析文本线索与篇章关系的统计规律，并构建相应的统计机器学习模型对目标篇章中的篇章关系进行识别。这种方法取得了一定的进展，但也遇到了一系列的问题。研究指出，该方法不能够反映篇章中深层次的语义，也不符合人类进行篇章关系识别时所反映的事实与特点。根据上述问题，本文的研究工作围绕如何构造合理有效的篇章关系识别模型展开，通过模仿人类篇章关系识别的过程设计和构造篇章关系识别模型。论文的主要贡献与创新归纳如下：（1）针对汉语隐式篇章关系识别问题，提出了一种基于记忆增强的注意力神经网络模型。该模型引入了注意力机制优化篇章上下文的文本表征，且使用记忆网络缓存在学习过程中捕获的篇章关系上下文模式，进而提升篇章关系分类的效能。实验证明，所提模型在公开的数据集上取得了与最好的模型可比的效果。（2）针对目前篇章关系识别模型的局限性，提出了一种基于经验的篇章因果关系识别模型。它受人类篇章理解过程的启发，通过积累不同场景中的经验信息以识别篇章因果关系。在实现中，所提模型采用了接地语言学习（grounded language learning）技术框架，可以通过环境直接为模型提供经验。模型处理文本时，保存在记忆中的经验信息可以对文本的浅层语义进行补充。实验证明，所提模型显著优于传统的基于上下文线索的关系识别模型，而且具有更好的可解释性。（3）针对转折关系识别问题，提出了一种基于期望比较的转折关系识别模型。该模型模仿人类通过前驱上下文以及经验生成期望，并通过比较期望与后继上下文确定转折关系的行为。实验证明，所提模型对于已有的基于文本线索的模型具有明显的优势，且具有很好的可解释性。综上所述，本文致力于构造更为有效的篇章关系识别模型，为篇章关系识别引入了接地语言学习技术框架，并在认知语言学观点的指导下构造了相应的接地篇章关系数据集以及基于经验的篇章关系识别模型，最终展示了这种新方法的潜力与优越性，为该领域提供了新的思路，有力地推动了该领域的研究。
语种	中文
页码	116
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/23993]
专题	自动化研究所_模式识别国家重点实验室_自然语言处理团队
推荐引用方式 GB/T 7714	刘洋. 篇章关系识别方法研究与应用[D]. 自动化研究所. 中国科学院大学. 2019.