计算机工程与应用2020,Vol.56Issue(11):246-251,6.DOI:10.3778/j.issn.1002-8331.1902-0246
Simhash算法在文本去重中的应用
Application of Simhash Algorithm in Text Deduplication
摘要
关键词
Simhash/信息熵/词频-逆向文件频率/权重优化/文本去重分类
信息技术与安全科学引用本文复制引用
张航,盛志伟,张仕斌,杨敏..Simhash算法在文本去重中的应用[J].计算机工程与应用,2020,56(11):246-251,6.基金项目
国家重点研发计划(No.2017YFB0802302) (No.2017YFB0802302)
四川省教育厅项目(No.18ZA0093) (No.18ZA0093)
四川省高校科研创新团队项目(No. 17TD0009) (No. 17TD0009)
四川省学术和技术带头人培养支持经费资助项目(No.2016120080102643) (No.2016120080102643)
四川省应用基础项目(No. 2017JY0168) (No. 2017JY0168)
四川省重点研发计划项目(No.2018TJPT0012) (No.2018TJPT0012)
四川省科技支撑计划项目(No.2016FZ0112,No.2018GZ0204). (No.2016FZ0112,No.2018GZ0204)