题名主题搜索系统关键技术研究
作者白鹤
学位类别博士
答辩日期2009-05-26
授予单位中国科学院声学研究所
授予地点声学研究所
关键词主题搜索 Deep Web 主体语义块 爬行策略 数据密集型
其他题名Research on Key Technologies for Topic-specific Web Search Engine System
学位专业信号与信息处理
中文摘要搜索引擎是当前互联网的基础应用,它帮助用户在海量数据中进行查询。但是传统的全网搜索模式存在索引更新困难和查询准确度低等局限性,主题搜索的出现和发展可以有效弥补上述不足,其关键技术成为了当前互联网研究的热点。 本课题深入探讨了主题搜索引擎的现状,从业务、框架、工程和算法几方面归纳了系统的功能需求,在此基础上开展研究。研究内容主要包括:容纳多业务点的主题搜索系统架构,Web页面主体语义块的提取算法,Deep Web接口页面的自动查询方案,目录式页面的主题爬行策略和“正文式”数据密集型页面的数据抽取算法。课题针对上述内容提出相应的解决或改进方案,主要贡献如下: 1. 提出了一种改进的基于数据抽取器的搜索系统架构。该架构提前训练数据抽取模式,以分类标注的策略支持多个主题业务,改善了以往系统只能提供单一主题搜索服务的情况;架构中针对分布式爬虫系统,实现了加权最小连接调度的任务分割算法,改进了之前基于哈希的平均分配策略,提高了资源的利用率和分布式爬虫的扩展性。 2. 提出了一种使用SVM分类模型区别Web页面主体语义块的方法,经过对正结果集进行后续的校验,最终定位最佳的主体块节点的准确率达到92.3%。本方案成功地把文本分类模型引入页面信息提取领域;相对于其它页面分块方法,实现了领域和平台无关,准确率也比有最佳记录的Data-Rover系统提高了大概两个百分点。 3. 提出了基于领域实例库自动查询Deep Web接口的方案。方案中实现了Deep Web领域实例库的建模方法,首次完备地描述了领域实例的要素、属性和相互之间的约束关系。测试结果显示,在积累一定样本数量的基础上,算法可以达到91%以上的模式匹配准确率,从而保证了Deep Web接口页面正确的自动查询。 4. 提出了一种针对目录式页面的主题爬行策略。不同于一般主题爬行算法对于页面内容或链接的分析,本算法从页面结构特征出发,归纳一系列先验性规则指导中心链接和翻页信息的提取算法。实验显示:本算法有效链接提取的F1指标能够达到85.6%,相比具有代表性的Fish-Search算法提高60%以上。 5. 提出两种对“正文式”数据密集型页面的知识发现算法。1)综合统计学和信号处理的理论,实现了提取“正文式”网页正文文本的算法,首次把FFT应用到信息提取领域,并取得了91.9%的提取准确度;2)基于元搜索技术,结合一定DOM结构的先验知识,实现了从新闻页面自动提取结构化信息的算法。无人工干预情况下Precision指标达到很优异的88.2%。
语种中文
公开日期2011-05-07
页码143
内容类型学位论文
源URL[http://ir.ioa.ac.cn/handle/311008/499]  
专题声学研究所_声学所博硕士学位论文_1981-2009博硕士学位论文
推荐引用方式
GB/T 7714
白鹤. 主题搜索系统关键技术研究[D]. 声学研究所. 中国科学院声学研究所. 2009.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace