基于word2vec的网站主题分类研究∗OACSTPCD
Subject of Website Classification Based on Word2vec
为了对网站主题高效的进行分类,建立一种基于word2vec的分类模型.针对预先定义的财经、娱乐、军事、科技、健康、体育、教育、社会共八个主题,首先通过word2vec训练得到包含语义的词向量.根据八个主题分别列举对应的特征词,将每个主题的特征词对应的词向量取平均作为该主题的中心词向量.对于待测网站文本,通过DBSCAN聚类提升文本的数据质量,计算文本与各主题的余弦相似度,取最大的作为该文本的所属主题.实验采用8000个文档进行测试,实验结果表明,…查看全部>>
In order to classify the subject of website efficiently,a classification model based on word2vec is established. Ac?cording to predefined finance,entertainment,military,science and technology,health,sports,education,social eight themes, first the word vector containing semantics is obtained through word2vec training. According to the eight themes,the list of key words corresponding to each topic is listed,and the word vector of each topic is taken on average…查看全部>>
程元堃;蒋言;程光
武汉邮电科学研究院 武汉 430074南京烽火软件科技有限公司 南京 210019南京烽火软件科技有限公司 南京 210019
信息技术与安全科学
网站分类word2vec词向量DBSCAN余弦相似度
Key Words website classificationword2vecword embeddingDBSCANcosine similarity
《计算机与数字工程》 2019 (1)
169-173,5
评论