基于词模式规则的轻量级日志模板提取方法OA北大核心CSTPCD
传统基于规则的日志解析方法针对每类日志需单独编写规则,且随着系统更新,出现新的日志模式时,需人工再次干预;基于深度学习的日志解析方法虽准确率高,但计算复杂度高。为解决日志解析方法人力成本和计算复杂度高的问题,文中提出一种基于词模式规则的轻量级日志模板提取方法,该方法由初始规则集生成、词模式规则应用、潜在错误样本发掘三个部分构成。首先,原始日志基于自适应随机抽样获取彼此间相似度较低的代表性日志;然后,基于专家反馈提取初始词模式规则集,在词模式规则应用模块对原始日志进行处理并提取日志模板;最后,在潜在错误样本发掘模块检查生成的日志模板聚类,发现潜在的错误分类样本并对其进行规则集更新。经过实验验证,在16个公开日志数据集上,文中方法的平均准确度达到97.8%,与基于深度学习的日志解析算法准确度基本持平;在计算效率方面,文中方法的单线程解析速度达到每秒20000条,且随着可用内核数量的增加,性能持续提升,满足系统日志的故障诊断和安全分析需求。
顾兆军;张智凯;刘春波;叶经纬;
中国民航大学信息安全测评中心,天津300300中国民航大学计算机科学与技术学院,天津300300
电子信息工程
日志解析模板提取词模式规则正则匹配启发式策略规则集
《现代电子技术》 2024 (021)
P.156-164 / 9
中国民航大学联合基金项目(U2333201)。
评论