国家高性能计算环境运行状态诊断系统OA北大核心
【目的】本文介绍了一种在大规模分布式运行环境中建立运行状态诊断系统的方法。【应用背景】为保障高性能计算环境的稳定运行,分析日志等环境数据是一种获取环境状态侧写和发现异常的重要途经。然而分析结果通常是文本和数字,对运维人员来讲缺乏直观印象,不利于快速理解。【方法】我们建设了国家高性能计算环境运行状态诊断系统,它是一种对于目标计算环境的运行状态进行量化和可视化评判的系统,通过对于目标环境的信息收集、整理,进行不同角度的分项分析。【结果】各分析结果被集成为统一的环境运行状态分值,并采用可视化方法将其立体地表现出来,以便相关运维人员能够直观地获取环境信息和快速定位问题。【结论】整个环节绝大部分处理分析工作是由程序自动完成,环境运行状态诊断系统极大减少了人工操作量,为运维工作起到有效的支撑作用。
赵一宁;肖海力;
中国科学院计算机网络信息中心,北京100083
计算机与自动化
状态诊断数据处理量化可视化应用高性能计算环境
《数据与计算发展前沿》 2024 (001)
P.57-67 / 11
国家重点研发计划项目“国家高性能计算环境服务化机制与支撑体系研究(二期)”(2018YFB0204000)。
评论