领域本体学习语料的自动获取与预处理方法研究
王思丽1,2,3; 祝忠明1,2; 刘巍1,2; 杨恒1,2
刊名图书馆学研究
2019-10-25
期号20页码:54-64
关键词领域语料 本体学习 自动获取 预处理 分词
ISSN号1001-0424
其他题名Research on Automatic Acquisition and Preprocessing Methods of Domain Ontology Learning Corpus
产权排序1
英文摘要

[目的/意义]实现领域语料的自动获取与预处理,为机器/深度学习驱动的领域本体自动构建提供数据及数据处理技术基础。[方法/过程]首先,对所涉及语料的类型、获取方法及应用研究现状进行分析,提出多源异构领域语料的自动获取方法,包括基于Web Spider的网络开放领域语料和基于Web API的科学文献领域语料的自动获取等。其次,分析提出领域基础知识词典的自动构建方法,为语料预处理奠定基础。最后,通过对主流分词方法及开源分词工具进行测试与评估,提出基于增量训练HanLP-SP领域分词模型的多策略混合的自动分词与新词发现方法,并进行实验研究。[结果/结论]方法能够有效获取到领域语料,并实现分词等预处理任务

资助项目基于深度学习的领域本体自动构建方法研究
语种中文
内容类型期刊论文
源URL[http://ir.las.ac.cn/handle/12502/10533]  
专题文献情报中心_中国科学院兰州文献情报中心_信息系统部
作者单位1.中国科学院西北生态环境资源研究院 文献情报中心
2.中国科学院兰州文献情报中心
3.中国科学院大学
推荐引用方式
GB/T 7714
王思丽,祝忠明,刘巍,等. 领域本体学习语料的自动获取与预处理方法研究[J]. 图书馆学研究,2019(20):54-64.
APA 王思丽,祝忠明,刘巍,&杨恒.(2019).领域本体学习语料的自动获取与预处理方法研究.图书馆学研究(20),54-64.
MLA 王思丽,et al."领域本体学习语料的自动获取与预处理方法研究".图书馆学研究 .20(2019):54-64.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace