首页|期刊导航|数字技术与应用|基于LDA的长短文本分类比较

基于LDA的长短文本分类比较OA

中文摘要英文摘要

LDA作为一种常用的主题模型,在文本挖掘中作为特征选择的方法被广泛应用。但随着互联网中短文本信息的逐渐增多,短文本代表性词少的特点使得LDA对于短文本的主题挖掘不一定能够达到理想效果,这给LDA的应用带来了巨大挑战。为了探究LDA主题模型对短文本的分类效果,基于LDA,对长文本和短文本进行分类,对比分类效果,判断LDA对于短文本的适用性。

As a common method of topic mining, LDA is used as a method of feature selection in text mining widely. But with the increase in the number of short text, the result of LDA for the topic mining of short text may be not good. It is a chalenge for LDA to deal with the few words .This paper classified the short text and long text based on LDA, respectively, compared the result, and estimated whether LDA is suitable for short text.

王海林;张雅君

山西财经大学信息管理学院山西太原 030006山西财经大学信息管理学院山西太原 030006

信息技术与安全科学

LDA主题模型文本分类短文本

LDAtopic modeltext classificationshort text

《数字技术与应用》 2016 (10)

230-230,1

评论

您当前未登录!去登录点击加载更多...