题名部分整体关系的获取与分析研究
作者曹馨宇
答辩日期2012-05-30
文献子类博士
授予单位中国科学院研究生院
授予地点北京
导师曹存根
关键词知识获取 知识表示 部分整体关系
学位专业其它专业
英文摘要知识工程使人工智能的研究从理论转向应用。知识工程以知识为基础,知识获取、知识表示和知识利用都是知识工程研究的基础课题。知识获取和知识表示的研究对人工智能理论和应用都具有极其重要的意义。 目前,在Internet数据中蕴含了丰富的知识,但同时也含有大量的垃圾信息,完全以人工方式获取知识已经不能满足要求,因此必须研究大规模知识获取的方法,以减少手工知识获取的代价。知识获取已成为人工智能发展的瓶颈所在。知识表示是人工智能研究的一个重要课题,如何将获取的知识应用到人工智能系统,使其模拟人类的智能活动,是知识表示所要解决的问题。不同的知识有不同的表示方法,合理的知识表示可以使问题的求解变得容易,并且有较高的求解效率。部分整体关系是人们对于客观世界的基础认识,是一种基础知识。部分整体关系的获取和表示对信息检索、知识问答、个性化信息服务等实现起到支持作用。 本文主要针对从语料库中获取部分整体关系、部分整体关系的分析、部分整体关系的形式化表示和从Web中获取部分整体关系等四个问题,取得了以下五个方面的研究成果: 1. 提出了一种从封闭语料库中获取部分整体关系的方法。本文首先通过半自动方式获取表示部分整体关系的模式,并采用框架的方式表示模式;然后从语料库中抽取匹配模式的语料,构成受限语料;再次,利用概念抽取标准和模式从受限语料中获取候选部分整体关系;最后基于部分整体关系的语义特征,构造启发式规则验证候选关系,得到部分整体关系。实验结果表明,我们获取的部分整体关系准确率为86%,召回率为72.73%、F值为79.39%。 2. 提出了基于部分整体关系图验证与分析部分整体关系的方法。首先我们以部分整体关系图表示获取的部分整体关系,并且定义了部分整体图中的相关概念,如概念簇和概念相似度等;然后通过识别部分整体关系图中的循环关系,进一步验证部分整体关系;最后基于部分整体关系图,对部分整体关系进行分析,包括(1)基于部分整体关系图对部分整体关系传递性的分析与解释;(2)为消除部分整体图中的冗余关系,我们利用决策树算法识别与剥离部分整体关系中的冗余概念,识别与剥离的准确率分别为91.05%和95.82%;(3)消解非确定部分整体关系,并通过对不能消解的部分整体关系的分析,我们发现了一种新的部分整体关系。 3. 提出了部分整体关系的形式化表示和推理规则。基于SUMO本体和获取的部分整体关系实例,通过部分整体关系中概念的语义特征及对不同类型的部分整体关系的认识与理解,我们对每类部分整体关系进行细分。实验证明我们的分类具有一般性。同时根据我们对部分整体关系的细分类及客观世界中人们对部分整体关系的理解,提出了基于SUMO本体的,部分整体关系一阶逻辑的形式化表示。依据部分整体关系的性质和对每种具体部分整体关系的理解,我们给出了关于部分整体关系形式化表示的推理规则集合。 4. 提出了一种部分整体关系实例到其形式化表示的映射方法。利用直接映射和间接映射方法将获取的部分整体关系实例对应于相应的形式化表示。将手工标记的一些部分整体关系实例的形式化表示作为样本集,直接映射方法指利用样本集和推理规则,直接将部分整体关系实例对应到相应的形式化表示。间接映射是根据我们形式化表示部分整体关系的过程,首先将部分整体关系映射到对部分整体关系的分类,然后再确定对具体部分整体关系实例的解释。映射方法的准确率为82.6%,召回率为70.3%,F值为76%。 5. 提出了一种利用搜索引擎从Web中获取部分整体关系的方法。首先构造一种基于部分整体关系分类的意图查询,利用意图查询可以有针对性地从Web中获取尽可能多的包含部分整体关系的语料;然后根据网页中的HTML标记和意图查询的格式过滤语料,并从中抽取候选部分整体关系;最后基于部分整体关系在自然语言中的表述的特点和汉语的构词规律,我们提出用于验证候选部分整体关系的度量标准。实验结果表明,我们的方法取得了较高的准确率和F值。在前20个结果中准确率为86%,最优F值为64%。
语种中文
学科主题 知识工程(包括专家系统)
公开日期2012-06-27
内容类型学位论文
源URL[http://ictir.ict.ac.cn/handle/311040/1409]  
专题中国科学院计算技术研究所学位论文_2012博士
推荐引用方式
GB/T 7714
曹馨宇. 部分整体关系的获取与分析研究[D]. 北京. 中国科学院研究生院. 2012.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace