基于RoBERTa和超球体空间的日志异常检测研究OA
通过监控和分析大量日志数据,日志异常检测能够及时识别入侵攻击、恶意操作等异常行为,是现代系统管理人员的一项关键工具.针对标注数据稀少的问题,提出基于RoBERTa和超球体空间的无监督日志异常检测算法.首先,为充分学习日志文本的语义特征,提出多层次语义提取网络,有效从多个层面学习日志的上下文信息.先使用日志语料库对稳健优化的BERT预训练方法(robustly optimized BERT pretraining approach,RoBERTa)进行预训练,再使用RoBERTa和Transformer编码器分别在词语层面和句子层面挖掘日志条目的语义特征.其次,为增加类差异和挖掘日志的正常模式,在特征空间引入超球体损失.通过对模型不断优化,在仅使用正常样本进行训练的前提下,正常样本的特征表示能够聚集于超球体空间的中心,而异常样本则远离该中心,最终达到分离异常样本的目的.最后,该模型在HDFS日志数据集和BGL日志数据集上分别取得了0.94和0.93的F 1分数,验证了该模型的有效性.
李小鹏;尹传环;钞萌
北京交通大学计算机科学与技术学院,北京100044 交通数据分析与挖掘北京市重点实验室,北京100044北京交通大学计算机科学与技术学院,北京100044 交通数据分析与挖掘北京市重点实验室,北京100044中国人寿保险股份有限公司上海数据中心,上海201201
计算机与自动化
日志异常检测稳健优化的BERT预训练方法变换器超球体空间
《南京师范大学学报(工程技术版)》 2024 (4)
P.17-27,11
国家自然科学基金项目(U23B2062).
评论