基于分布式技术的科技文献大数据平台的建设研究
常志军2,3; 钱力2,3; 谢靖2,3; 吴振新2,3; 张鹄2; 于倩倩2; 王颖2; 王永吉1
刊名数据分析与知识发现
2021
卷号5期号:03页码:69-77
英文摘要

【目的】解决海量篇级文献的存储与在线访问、大规模数据治理和服务性能低的问题,建设科技文献大数据平台。【方法】以分布式技术为基础,分析科技大数据特点及服务导向,结合服务器、网络等硬件资源条件,采用共租部署策略,设计了"5+2"整体架构的科技文献大数据平台。【结果】建成PB级科技文献大数据平台,数据存储量达到200TB,文献实体量达3.2亿条,实体关系量达60亿条,基于MapReduce的元数据处理性能提高3倍,形成了基于微服务的知识服务架构。【局限】该平台未设计完整的流式处理流程,不能满足增量数据即时响应的需求。【结论】本文建设的科技文献大数据平台已支撑中国科学院文献情报中心知识发现平台、慧科研等产品体系,取得较好的线上服务效果,提升了对科技文献数据的处理计算与服务能力。

语种中文
内容类型期刊论文
源URL[http://ir.las.ac.cn/handle/12502/11658]  
专题文献情报中心_中国科学院文献情报中心
作者单位1.中国科学院软件研究所
2.中国科学院文献情报中心
3.中国科学院大学经济与管理学院图书情报与档案管理系
推荐引用方式
GB/T 7714
常志军,钱力,谢靖,等. 基于分布式技术的科技文献大数据平台的建设研究[J]. 数据分析与知识发现,2021,5(03):69-77.
APA 常志军.,钱力.,谢靖.,吴振新.,张鹄.,...&王永吉.(2021).基于分布式技术的科技文献大数据平台的建设研究.数据分析与知识发现,5(03),69-77.
MLA 常志军,et al."基于分布式技术的科技文献大数据平台的建设研究".数据分析与知识发现 5.03(2021):69-77.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace