CORC  > 软件研究所  > 基础软件国家工程研究中心  > 学位论文
题名基于隐含狄利克雷分配模型的文本分类方法研究
作者李文波
学位类别博士
答辩日期2008-06-06
授予单位中国科学院软件研究所
授予地点软件研究所
导师孙玉芳 ; 孙乐
关键词文本分类 图模型 隐含狄利克雷分配 语言模型
其他题名Research on the Key Issues in the Text Classification Based on the Latent Dirichlet Allocation Model
学位专业计算机软件与理论
中文摘要随着互联网的不断发展,网络文本信息资源正在急剧增加,如何利用计算机自动有效地对海量的文本信息进行管理和查询成为了当前的迫切需求。而文本分类技术提供了一种对自然语言文档进行自动组织的有效手段。本文从模型平滑、类别信息嵌入和高性能求解算法等方面对LDA 模型(Latent Dirichlet Allocation,隐含狄利克雷分配)开展了研究,研究内容涉及文本分类中不平衡语料分类、文本表示、复杂分类器加速等多个方面,论文的主要工作和创新点总结如下:第一、为了克服传统LDA 模型平滑算法中直接修改多级图模型隐含变量分布的随意性我们提出了数据驱动的Laplacian 平滑方法和数据驱动的 Jelinek-Mercer 平滑方法。数据驱动的Laplacian 平滑方法缓解了传统LDA 模型的过拟合现象,数据驱动的Jelinek-Mercer 平滑方法在基本保持整体性能的情况下,降低了预测阶段的时间复杂度。数据驱动的平滑策略在平衡和非平衡语料库上都能够显著提高LDA 模型的分类性能。第二、传统LDA 模型计算目标文档在不同类别上的生成概率时,在文档非所属类别的隐含主题上会发生强制分配。针对这一问题我们提出了Labeled-LDA 模型将隐含主题和类别信息融合在一起,在分类目标文档时协同计算全部类别的隐含主题的分配以改善分类性能。第三、LDA 等隐含主题模型是近期在文本挖掘领域发展起来的重要研究方向,但是算法具有较高的计算复杂度。我们以动态负载均衡的算法为重点,研究和实现了LDA 模型在多内核计算机上的并行计算和CTM 模型(Correlated Topic Model,关联主题模型)在异构集群环境下的分布式计算。第四、基于提出的Labeled-LDA 模型我们设计和实现了一个具有柔性文本分类功能的实验系统。该系统利用Labeled-LDA 模型对目标文档中的隐含主题进行概率推断,进而得到文档在各类别上的分配量。相对概率支持向量机等判别模型概率估计方法,该分配量具有较明确的实际意义,同时避免了贝叶斯等生成分类模型输出极端概率值的问题。
索取号暂无
英文摘要With the development of diverse internet applications, information quantity, especially the number of text media, grows rapidly. The text classification provides an efficient means to organize massive text information. This thesis focuses on the key issues of text classification beased on the Latent Dirichlet Allocation (LDA) model. The main contributions and novelties are summarized as follows: Smoothing Methods for the LDA Model We proposed the data-driven smoothing strategy for LDA model and two concrete smoothing methods: The fisrt is the data-driven Laplacian smoothing which can allay the overfitting of traditional LDA model. The second is the data-driven Jelinek-Mercer smoothing which can accelerate the speed of predicting phase. Our smoothing method can improve the effectiveness of both balanced and unbalanced text classification task. Classificatory Information Fusion on LDA Model We proposed the Labeled-LDA model to fusion the classificatory information into the traditional LDA model. The Labeled-LDA model enhances the ability of LDA on text presentation and conqueres LDA's disability of its compulsive allocation behaviors on latent topics. Labeled-LDA model improves the effectiveness of text classification task. High Performance Computing on Latent Topic Model We proposed the dynamic load-balance algorithm for the latent topic models in their high performance computing. We realize the parallelled-LDA model and distributed-CTM model based on our algorithm and obtain prominent accelerated ratio. IV Text Soft-Classification Based on our Labeled-LDA model, we design and develop the Text Soft-Classification Experiment System in which target document is classed by the allocation across latent topics associated with classes. Labeled-LDA based text soft-classification can avoid the extreme sharp output-probability problem of many generative classifiers, such as NaiveBayes, and at the same time, it has the superior of more intelligible sematic than some probabilistic estimation methods for discriminative classifiers, such as probabilistic support vector machine.
公开日期2011-03-17
分类号暂无
内容类型学位论文
源URL[http://124.16.136.157/handle/311060/5874]  
专题软件研究所_基础软件国家工程研究中心_学位论文
推荐引用方式
GB/T 7714
李文波. 基于隐含狄利克雷分配模型的文本分类方法研究[D]. 软件研究所. 中国科学院软件研究所. 2008.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace