|国家科技期刊平台
首页|期刊导航|高技术通讯|基于深度学习的不良应用域名早期识别方法

基于深度学习的不良应用域名早期识别方法OA北大核心CSTPCD

中文摘要

不良应用网站依赖域名系统(DNS)实现不良内容传播,严重影响互联网的健康发展。尽早识别出不良应用网站对应的域名(即不良应用域名),并进行相应治理,对域名系统的管理与运行至关重要。本文从国家顶级域名(.CN)管理的角度出发,关注如何在注册阶段识别不良应用域名。分析发现不良应用域名在注册特征与文本结构2个维度,与正常域名存在显著差异。为此,提出了一种基于深度学习的不良应用域名早期识别方法。该方法首先提取域名的注册信息特征,并利用预训练语言模型基于Transformer的双向编码器(BERT)提取域名本身的文本语义特征,其次基于注意力机制融合2类特征,并最终使用全连接神经网络,构建域名分类器,实现不良应用域名的早期识别。基于真实网络数据的实验结果表明,所提方法分类准确率(F1分数)可达到0.99;消融实验结果也验证了所选特征的有效性和必要性。

胡安磊;田语;陈勇;李振宇;谢高岗;

中国科学院计算技术研究所,北京100190 中国互联网络信息中心,北京100190 中国科学院计算机网络信息中心,北京100083中国科学院计算技术研究所,北京100190 中国科学院计算机网络信息中心,北京100083中国互联网络信息中心,北京100190中国科学院计算机网络信息中心,北京100083 中国科学院大学,北京100049

计算机与自动化

域名系统(DNS)域名分类深度学习预训练语言模型

《高技术通讯》 2024 (002)

P.151-161 / 11

国家重点研发计划(2022YFB3103000);国家自然科学区域联合重点基金(U20A20180,62072437)资助项目。

10.3772/j.issn.1002-0470.2024.02.005

评论