计算机技术与发展2022,Vol.32Issue(8):26-32,7.DOI:10.3969/j.issn.1673-629X.2022.08.005
基于Simhash改进的文本去重算法
Improved Text Deduplication Algorithm Based on Simhash
摘要
关键词
Simhash/文本去重/词频-逆文本频率/Jaccard相似度/二进制压缩算法/位置特征分类
信息技术与安全科学引用本文复制引用
张亚男,陈卫卫,付印金,徐堃..基于Simhash改进的文本去重算法[J].计算机技术与发展,2022,32(8):26-32,7.基金项目
国家自然科学基金(61402518) (61402518)
江苏省自然科学基金(BK20191327) (BK20191327)