基于词-主题-文本异质网络的短文本分类方法OACSTPCD
SHORT TEXT CLASSIFICATION METHOD BASED ON WORD-TOPIC-DOCUMENT HETEROGENEOUS NETWORK
针对现有分类方法未考虑长距离词的语义相关性和文本间潜在主题共享的问题,提出一种基于词-主题-文本异质网络(WTDHN)的短文本分类方法.通过Word2vec训练词的上下文语义向量;构建词相关性矩阵以充足的词共现信息增强短文本各级别语义学;构建以词、主题和文本为节点的异质网络,并采用图卷积学习节点之间的高阶邻域信息,丰富短文本语义.相较于基准分类模型,该方法在五个公开短文本数据集上的分类准确率平均提高1.56%.
The existing short text classification methods ignore the semantic relevance between long-distance words and potential topic sharing between documents.To solve this issue,a novel short text classification method based on word-topic-document heterogeneous network(WTDHN)is proposed.The proposed method yielded the contextual semantic vectors of words through Word2vec.A word correlation matrix was constructed to enhance the learning of the potential topic distri…查看全部>>
徐涛;赵星甲;卢敏
中国民航大学计算机科学与技术学院 天津 300300中国民航信息技术科研基地 天津 300300航空公司人工智能民航局重点实验室 广东广州 510000
计算机与自动化
词-主题-文本异质网络词共现文本-主题分布短文本分类
Word-topic-document heterogeneous networkWord co-occurrenceDocument-topic distributionShort text classification
《计算机应用与软件》 2024 (1)
146-152,182,8
天津市自然科学基金项目(18JCYBJC85100)中央高校基本科研业务费专项资金项目(3122014D032)航空公司人工智能民航局重点实验室项目.
评论