|国家科技期刊平台
首页|期刊导航|情报杂志|基于Sentence-BERT的专利技术主题聚类研究——以人工智能领域为例

基于Sentence-BERT的专利技术主题聚类研究——以人工智能领域为例OA北大核心CHSSCDCSSCICSTPCD

中文摘要

[研究目的]将Sentence-BERT模型应用于专利技术主题聚类,解决专利文献为突出新颖性,常使用独特技术术语造成词汇向量语义特征稀疏的问题。[研究方法]以人工智能领域2015年-2019年的22370篇专利为实验数据。首先,采用Sentence-BERT算法对专利文献摘要文本进行向量化表示;其次,对向量化矩阵进行数据降维,利用HDBSCAN方式寻找原始数据中的高密度簇;最后,识别类簇文本集合中的主题特征,并完成主题呈现。[研究结论]对比LDA主题模型、K-means、doc2vec等方法,本文的实验结果提高了主题划分的细粒度和精确度,获得了较好的主题一致性。如何采用fine-tune策略进一步提升模型的效果,是未来该方法进一步深入探索的方向。

阮光册;周萌葳;

华东师范大学经济与管理学部信息管理系,上海200241

Sentence-BERT专利文本主题识别文本聚类

《情报杂志》 2024 (002)

P.110-117 / 8

10.3969/j.issn.1002-1965.2024.02.016

评论