一种用于微博谣言检测的半监督学习算法OA北大核心CSCDCSTPCD
Semi-supervised learning algorithm applied to microblog rumors detection
在微博谣言检测中,对微博谣言进行正确标注需要耗费大量的人力和时间,同时数据类别的不平衡也影响了微博谣言的正确识别。为了解决该问题,提出一种基于 Co-Forest 算法针对不平衡数据集的改进方法,利用 SMOTE 算法和分层抽样平衡数据分布,并通过代价敏感的加权投票法来提高对未标记样本预测的正确率。该方法只需要对少量训练数据实例进行谣言类别标注即可有效检测谣言。10组 UCI 测试数据和2组微博谣言的实证实验证明了算法有效性。
In microblog rumor detection,labeling microblog rumors correctly requires a huge amount of manpower and time. At the same time,imbalanced data category also affects the correct recognition of microblog rumors.To resolve this problem, this paper proposed an improved method based on Co-Forest algorithm,which could be used for imbalanced dataset.This method used SMOTE algorithm and stratified sampling to balance the data’s distribution.Besides,it improved the c…查看全部>>
路同强;石冰;闫中敏;周珮
山东大学 计算机科学与技术学院,济南 250101 中国人民解放军 61516 部队,北京 100094山东大学 计算机科学与技术学院,济南 250101山东大学 计算机科学与技术学院,济南 250101
信息技术与安全科学
微博谣言检测不平衡数据半监督学习Co-Forest 算法SMOTE代价敏感
microblogrumor detectionimbalanced datasemi-supervised learningCo-Forest algorithmSMOTEcost sensitive
《计算机应用研究》 2016 (3)
面向市场情报的Web实体事件发现与踪迹分析研究
744-748,5
国家自然科学基金资助项目(61303005)
评论