基于组合相似度动态聚类和词熵的网络话题在线检测OA北大核心CHSSCDCSSCICSTPCD
[研究目的]为实现网络热点话题的在线检测,提升增量式聚类算法的聚类效果,提出了基于组合相似度的动态聚类算法,同时通过计算词熵实现主题词提取和演化跟踪。[研究方法]通过CIFG-BiLSTM-CRF模型实现文本的命名实体识别,计算文本与话题的实体相似度,再取文本词向量与话题中心余弦相似度的最大值作为词向量相似度,二者结合判断文本所属话题。在聚类过程中利用时间窗口策略实现话题中心和成员文本的动态更新。同时,计算文本词熵,生成话题的词熵和列表,实现话题主题词提取和演化跟踪。实验以新冠疫情新闻为数据实现话题在线检测,并展示了话题主题词的演化和跟踪过程。[研究结论]实验表明,与传统相似度计算方法相比,组合相似度能够获得更好的聚类效果,聚类过程中提取出的话题主题词也正确地反映了原始数据的热点话题内容。
郭慧;王亚楠;王欣艳;魏艺泽;王养廷;
华北科技学院,廊坊065201河北科技大学经济管理学院,石家庄050018应急管理部大数据中心,北京100013
计算机与自动化
网络话题在线话题检测增量式聚类主题词提取组合相似度动态聚类算法词熵
《情报杂志》 2024 (005)
P.159-166 / 8
国家社会科学基金项目“重大疫情下社区健康边际及防护体系构建研究”(编号:21BSH072)研究成果。
评论