CORC  > 软件研究所  > 中科院软件所  > 中科院软件所
题名中文文本的主题分析技术研究
作者石晶
学位类别博士
答辩日期2007-06-05
授予单位中国科学院软件研究所
授予地点软件研究所
关键词主题分析 主题分割 主题识别 主题关联强度 主题相关性 词汇集聚性 词汇链 知网 文本推理
中文摘要文本的主题分析旨在确定一个文本的主题结构,即识别所讨论的主题,界定主题的外延,跟踪主题的转换,觉察主题间的关系等,它是很多信息处理领域,比如文本理解、语言建模、信息的检索与抽取、文本分类等应用的基础与核心部分。其工作大多基于英文文本,一方面的原因是英语的计算机处理研究较早,较多;另外一个原因是英语的语料库以及知识词典等资源比较完整、全面,也易于获取。汉语和英语存在极大的差异,这使得无法直接套用西方已成熟的理论与技术。目前中文信息处理的大部分研究集中在信息的智能获取,文本与信息的自动分类,文本过滤,信息检索,主题词的抽取与标引等,对于文本的主题分析领域涉猎较少。 基于中文文本,本文主要研究三部分内容:主题分割、主题识别以及主题关系剖析,并将其集成起来,形成一个完整的文本分析体系。具体地说是在文本分割的基础上,确定片段主题,进而总结全文的中心主题,然后基于主题分割及主题识别的结果分析片段主题之间的关联强度及相关性,使文本的主题分布及结构脉络呈现出来。基于如此含义进行中、英文文本主题分析的研究目前均不多见。尽管本文致力于三部分的有机集成,但每一部分作为单独的内容均可为其他领域或他人研究之所用。 主题分割研究始于九十年代早期,最初用于基于片段的信息检索。本文尝试利用PLSA模型表示词汇的分布概率,但发现模型本身固有的缺陷,使得分割结果随着主题数目及迭代次数的变化幅度较大,同时,回火期望极大算法中的参数并不象文献中所说的那样易于确定。于是,本文以LDA模型替换PLSA模型,进行新的尝试。从理论上讲,LDA比PLSA具有一些完全生成模型独特的优点,因而克服了PLSA模型的很多不足之处。实验结果也表明,基于LDA的主题分割,其错误率的变化幅度(最佳与最差)不大。除了基于概率统计的模型与方法,本文亦尝试利用小世界模型的“短路径”和“高聚合系数”的特性进行主题边界的识别,实验结果也令人满意。 主题识别基于主题分割的结果进行,对于LDA模型,本文利用香农信息抽取片段主题词;对于小世界模型,本文通过计算词汇的重要程度,获取反映主题的关键词汇。然后以背景词汇聚类的方式产生联想,使得主题词扩充到待分析文本之外,尝试挖掘隐藏于字词表面下的文本内涵。实验结果表明,由于充分利用背景知识,所以主题词抽取的准确率比其它方法高,同时结果对比说明,本文方法提取的主题词的先后顺序对于片段核心内容的反映程度,亦比其它两种方法好很多。 主题关系剖析是目前极少有人深入研究的内容,本文从主题关联强度以及主题相关性两个方面对主题间的关系予以分析。主题关联强度主要考查主题之间联系的紧密程度,本文依据词汇集聚性设计强度计算公式。词汇集聚性是文本集中于主题的重要机制,它反映了各子主题间及中心主题与子主题间的有效关联。分析词汇集聚性的手段之一是计算词汇链,就是将重复词、同义词、上下位词、反义词、对义词以及词义相关的词汇聚在一起。本文提出基于知网的推理路径计算词汇链,实验表明,知网可以捕获词汇链中最难获取的两种关系——系统的和非系统的语义联系,尤其是非系统的情况,因涉及上下文语境而难于获取,但知网提供的概念间的关系非常丰富与全面,涵盖了概念的使用语境,词汇链的形成结果也基本符合人的直觉。主题相关性的分析重点在于片段讨论类似主题的程度,本文基于知网的实体类层次结构设计路径权重公式,并实现相关性的计算。
语种中文
公开日期2011-03-17
页码129
内容类型学位论文
源URL[http://ir.iscas.ac.cn/handle/311060/7088]  
专题软件研究所_中科院软件所_中科院软件所
推荐引用方式
GB/T 7714
石晶. 中文文本的主题分析技术研究[D]. 软件研究所. 中国科学院软件研究所. 2007.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace