领域本体学习语料的自动获取与预处理方法研究 | |
王思丽1,2,3; 祝忠明1,2; 刘巍1,2; 杨恒1,2 | |
刊名 | 图书馆学研究 |
2019-10-25 | |
期号 | 20页码:54-64 |
关键词 | 领域语料 本体学习 自动获取 预处理 分词 |
ISSN号 | 1001-0424 |
其他题名 | Research on Automatic Acquisition and Preprocessing Methods of Domain Ontology Learning Corpus |
产权排序 | 1 |
英文摘要 | [目的/意义]实现领域语料的自动获取与预处理,为机器/深度学习驱动的领域本体自动构建提供数据及数据处理技术基础。[方法/过程]首先,对所涉及语料的类型、获取方法及应用研究现状进行分析,提出多源异构领域语料的自动获取方法,包括基于Web Spider的网络开放领域语料和基于Web API的科学文献领域语料的自动获取等。其次,分析提出领域基础知识词典的自动构建方法,为语料预处理奠定基础。最后,通过对主流分词方法及开源分词工具进行测试与评估,提出基于增量训练HanLP-SP领域分词模型的多策略混合的自动分词与新词发现方法,并进行实验研究。[结果/结论]方法能够有效获取到领域语料,并实现分词等预处理任务。 |
资助项目 | 基于深度学习的领域本体自动构建方法研究 |
语种 | 中文 |
内容类型 | 期刊论文 |
源URL | [http://ir.las.ac.cn/handle/12502/10533] |
专题 | 文献情报中心_中国科学院兰州文献情报中心_信息系统部 |
作者单位 | 1.中国科学院西北生态环境资源研究院 文献情报中心 2.中国科学院兰州文献情报中心 3.中国科学院大学 |
推荐引用方式 GB/T 7714 | 王思丽,祝忠明,刘巍,等. 领域本体学习语料的自动获取与预处理方法研究[J]. 图书馆学研究,2019(20):54-64. |
APA | 王思丽,祝忠明,刘巍,&杨恒.(2019).领域本体学习语料的自动获取与预处理方法研究.图书馆学研究(20),54-64. |
MLA | 王思丽,et al."领域本体学习语料的自动获取与预处理方法研究".图书馆学研究 .20(2019):54-64. |
个性服务 |
查看访问统计 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论