面向预定义关系类型的知识抽取关键技术研究

CORC > 自动化研究所 > 中国科学院自动化研究所 > 毕业生 > 博士学位论文

题名	面向预定义关系类型的知识抽取关键技术研究
作者	郑孙聪
答辩日期	2017-05-27
授予单位	中国科学院研究生院
授予地点	北京
导师	徐波
关键词	知识抽取文本向量化卷积神经网络长短时记忆网络端对端模型
英文摘要	随着互联网技术的快速发展，网络中的文本数据急剧增加。海量的文本一方面蕴含了丰富的知识，另一方面也夹杂了庞大的冗余信息，这使得用户面临着信息过载的困绕。因此，如何从这些非结构化的文本数据中高效、精准地抽取出实体及他们之间的关系以形成结构化的知识，帮助人们快速获取关键性的信息，丰富各种智能化应用所依存的知识资源，是知识抽取领域的研究热点。本文以非结构化文本为研究对象，以人们预定义的关系类型为中心，以获取结构化知识单元为目的，在文本主题抽取的前提工作下，从三种不同的知识抽取角度展开了相关研究。本文中，结构化的知识单元是指一种特殊的三元组，三元组中的“主语(subject)”和“宾语(object)”都是被抽取文本中的实体词，而“谓词(predicate)”是预定义的关系类型。三种不同的知识抽取方式分别是先识别实体再抽取关系的串联抽取方式、实体和关系的关联抽取方式和三元组的端对端抽取方式。具体研究内容及工作成果主要包括以下四个方面。 1. 提出了一种可用于抽取文本主题的无监督文本主题向量化方法。文本主题概括了文本的主要语义信息。抽取文本语料的主题信息，有助于定义关系类型体系和抽取特定领域知识，是知识抽取的基础工作。针对主题抽取问题，本文借鉴word2vec的思想，提出了一种无监督的文本（句子，文档）主题向量化方法，该方法能有效地将文本自动地映射到一个低维的语义空间中，使相似主题文本在该空间的距离尽可能地接近，解决了传统主题抽取方法的高维、稀疏、语义鸿沟等问题。在相关任务的数据集上进行了丰富实验，结果表明所提方法在主题抽取方面具有明显优势。 2. 提出了一种同时挖掘关系模式特征和实体语义特征的关系抽取框架。关系抽取任务是在已知句子中实体的情况下判别实体之间的关系，是基于串联知识抽取方式的关键步骤。针对这一任务，本文分别设计了基于卷积神经网络与长短期记忆网络的关系模式特征挖掘模块和带扩散窗口的卷积网络的实体语义特征挖掘模块。通过融合上述两个模块，本文提出了一种抽取实体关系的关系抽取框架，并在关系抽取的公开数据集SemEval-2010中对此抽取框架进行实验验证。实验结果表明，所提方法取得了当时最佳的结果。与此同时，实验结果也充分验证了本文所提关系模式抽取模块和实体语义表示模块的有效性。 3. 提出了一种对实体与关系进行关联抽取的方法。传统串联知识抽取方式侧重于分别优化“实体识别”和“关系抽取”两个子任务，往往忽视二者之间的联系，而已有的联合抽取方法又多是基于人工特征方式，耗时耗力且鲁棒性差。针对上述问题，本文提出了一种基于混合神经网络的实体与关系的关联抽取模型，该方法不仅避免了人工设计特征的过度参与，而且增强了实体识别和关系抽取的关联性。在信息抽取的公开评测数据集ACE05上的实验，验证了本文所提方法的有效性。 4. 提出了一种基于序列标注的端对端三元组抽取方法。已有的三元组抽取算法都是通过获取实体元组和关系元组从而得到知识单元（三元组）。这在一定程度上造成误差累积和信息冗余等问题，影响了抽取效果。为了解决上述问题，本文设计了一种新型的标记策略，它可以将三元组抽取任务转化为序列标记的任务，进而通过端对端的算法实现三元组抽取。此外，本文在上述标记策略的基础上，结合三元组的标记特点，对基于双向长短时记忆网络的端对端模型进行了改进。通过在公开的大规模的相关数据集中进行相关实验，实验结果表明基于本文标记策略的端对端抽取方法的性能优于当前其他算法。
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/14672]
专题	毕业生_博士学位论文
作者单位	中国科学院自动化研究所数字内容研究中心
推荐引用方式 GB/T 7714	郑孙聪. 面向预定义关系类型的知识抽取关键技术研究[D]. 北京. 中国科学院研究生院. 2017.