文本相似度计算方法综述OA北大核心CSTPCD
文本相似度计算是自然语言处理的一部分,用来计算两个词、句子及文本之间的相似程度,具有多种应用场景,文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面,随着词向量的提出,文本相似度计算可进行基于统计以及深度学习的建模与计算,也可与预训练模型相结合。首先,将文本相似度计算方法分为基于字符串、基于词向量、基于预训练模型、基于深度学习、其他方法5类,并对这些方法进行简要介绍。然后,根据不同文本相似度计算方法的原理,具体介绍了编辑距离、汉明距离、词袋模型、向量空间模型(VSM)、深度结构语义模型(DSSM)、句子嵌入的简单对比学习(SimCSE)等常见方法。最后,对文本相似度计算常用的数据集以及评价标准进行整理和分析,并对文本相似度计算的未来发展进行展望。
魏嵬;丁香香;郭梦星;杨钊;刘辉;
西安理工大学计算机科学与工程学院,陕西西安710048山东开放大学直属学院,山东济南250014
计算机与自动化
文本相似度字符串词向量预训练模型深度学习
《计算机工程》 2024 (009)
P.18-32 / 15
国家重点研发计划项目(2022YFE0138600);教育部人文社会科学研究规划基金(23YJA870011);重庆市计算智能重点实验室项目(2020FF02)。
评论