题名篇章级事件抽取关键技术研究
作者杨航
答辩日期2023-06-23
文献子类博士
关键词自然语言处理 信息抽取 事件抽取 篇章级事件抽取
英文摘要

在信息时代,互联网已经成为人们获取信息的主要渠道,网络上的信息规模也呈爆炸式增长。信息抽取技术旨在从非结构化的自然语言文本中抽取出结构化的事实描述,从海量文本数据中挖掘关键信息。事件抽取作为信息抽取领域中的关键环节,目标是从自然语言文本中识别并抽取出结构化事件信息。近年来,在相关国际评测的推动下,事件抽取研究取得了较大进展。但是,目前大多数事件抽取方法都是面向句子层面的,即分析单个语句的文本内容,并从中抽取事件知识。相对而言,面向篇章级的事件抽取方法研究较少,方法技术十分有限。在实际应用场景中,事件在文本中的表达通常是篇章级别的。相对于句子级别的事件表达,篇章级别的事件表达更加复杂和多样,给篇章级事件抽取技术带来了极大的挑战。

本文重点关注篇章级事件抽取方法,围绕篇章级事件抽取过程中普遍存在的单事件元素跨句分散问题、多事件交错描述问题和主事件多视角表达问题展开研究。
本文的主要研究内容和创新点如下:

1.针对篇章内单事件元素跨句分散问题,本文提出了一种基于层级编码的跨句事件元素抽取方法。该方法利用层级编码器有效地建模了篇章中局部(句内)和全局(句间)的信息交互,并获得篇章级语义表示,从而实现了跨句事件元素的抽取。具体地,针对事件元素与触发词存在跨句联系的场景,设计了一个基于事件感知和层级编码的抽取模型,隐式地捕获事件文本信息的交互。该模型采用层级编码器建模篇章上下文和事件文本之间的局部和非局部依赖关系,并引入事件内容预测的辅助任务来帮助元素抽取模型隐式地感知事件相关的信息。同时,针对事件元素之间存在跨句联系的场景,设计了一个基于多轮多粒度阅读框架的抽取模型,显式地建模事件元素之间的关系。该模型基于机器阅读理解的范式,为事件元素抽取提供事件语义角色的文本信息,并引入多轮问答的形式捕获事件元素之间的长距离依赖关系。在标准篇章级事件元素抽取数据集上的实验结果表明,相比以往的抽取方法,上述方法可以显著提升事件元素抽取的性能,尤其在跨句元素抽取这种具有挑战性的场景中表现更为突出。

2.针对篇章内多事件交错描述问题,本文提出了一种基于并行预测的多事件协同抽取方法。该方法基于编码器-解码器的生成式框架,有效地融入篇章级信息,建模多事件之间的信息交互,实现多个结构化事件的并行预测。具体地,在模型层面,该方法首先引入文档级编码器进行篇章级信息融合,捕获篇章内容感知的上下文表示。其次,设计了一个基于非自回归的多粒度事件解码器,该解码器不仅能够建模多事件间的信息交互,还支持多个结构化事件的并行预测。最后,在模型优化层面,引入了基于二部图匹配算法的损失函数,实现了端到端生成式模型的全局优化。在标准篇章级事件抽取数据集上的实验结果表明,相对于以往的抽取方法,该方法可以显著提升篇章级事件抽取的性能,特别是在具有挑战性的多事件抽取场景中性能提升尤为明显。

3.针对篇章内主事件的多视角表达问题,本文提出了一种基于篇章结构建模的主事件多视角分析方法。该方法通过多视角语篇图的构建,有效地建模篇章结构,实现面向事件的语篇内容分析。具体地,该方法首先构建以主事件为导向的多视角语篇图来建模篇章结构。多视角图由注入先验知识的语篇关系图、共指关系图和基于潜在图结构学习的动态图三部分构成,用于捕获语篇单元之间的语义关系。其次,利用图卷积神经网络对多视角图结构中的语义内容进行表示学习。
最后,进一步引入动态路由网络来分配从多视角特征表示到内容预测的贡献权重。在面向事件的内容结构分析数据集上的实验结果表明,相比以往的方法,本文所提方法可以显著提升篇章事件分析的性能。

本文的工作、方法和结论对于进一步探索和建立更加高效的篇章级事件抽取系统具有重要的参考价值和指导意义。

语种中文
页码136
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/52309]  
专题自动化研究所_模式识别国家重点实验室
通讯作者杨航
推荐引用方式
GB/T 7714
杨航. 篇章级事件抽取关键技术研究[D]. 2023.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace