基于短语向量和主题加权的关键词抽取方法OA北大核心CSCDCSTPCD
The Theme-Weighted Keyphrase Extraction Algorithm Based on Phrase Embedding
现有关键词抽取算法缺乏对短语的有效表示,为抽取出更能反映文本主题的关键短语,本文提出一种基于短语向量的关键词抽取方法PhraseVecRank.首先设计基于LSTM(Long Short-Term Memory)和CNN(Convolutional Neural Network)自编码器的短语向量构建模型,解决复杂短语的语义表示问题.然后,利用短语向量对每个候选短语计算主题权重,通过主题加权排序提高关键词抽取的效果.在公共数据集和学术论文数据上的实验表明,本文提出的方法能够有效提取与文本主题信息相关的关键短语,同时利用自编码器构造的短语向量可以更好地表示短语的语义信息.
孙新;盖晨;申长虹;张颖捷
北京理工大学计算机学院北京市海量语言信息处理与云计算应用工程技术研究中心,北京100081北京理工大学东南信息技术研究院,福建莆田351100北京理工大学计算机学院北京市海量语言信息处理与云计算应用工程技术研究中心,北京100081北京理工大学计算机学院北京市海量语言信息处理与云计算应用工程技术研究中心,北京100081
信息技术与安全科学
短语向量自编码器主题加权关键词抽取
《电子学报》 2021 (9)
1682-1690,9
国家重点研发计划项目(No.2017YFB0803300)
评论