面向结构化篇级科技文献数据治理的高性能分布式计算框架研究OA北大核心CHSSCDCSSCICSTPCD
[研究目的]为解决MapReduce、Spark等主流分布式计算框架存在的研发周期长、技术门槛高等问题,提出了一种高灵活、低门槛的高性能计算框架ArticleCF。[研究方法]ArticleCF框架吸收了主流分布式技术的优点,同时深度结合科技文献数据治理的特性,设计了Master/Slave的软件架构,在功能上针对科技文献数据特点进行多个维度的设计,重点设计了分布式任务分发策略、并行计算策略以及故障转移机制。[研究结论]通过21个指标将ArticleCF与MapReduce、Spark、Storm进行对比实验,有效验证所提方法的可行性、有效性,ArticleCF能够满足海量结构化科技文献数据的多样化处理需求。
范萌;常志军;钱力;郭丹;
中国科学院文献情报中心,北京100190 中国科学院大学经济与管理学院信息资源管理系,北京100190中国科学院文献情报中心,北京100190
计算机与自动化
科技文献数据治理分布式计算结构化数据在线可视化编程高性能计算MapReduceSpark
《情报杂志》 2024 (003)
P.182-189,121 / 9
国家社会科学基金项目“面向循证医学的领域文献实体关系识别方法研究”(编号:21BTQ106)研究成果。
评论