基于语境相似度的中文分词一致性检验研究OA北大核心CSTPCD
Consistency Check for Chinese Word Segmentation via Contextual Similarity
提出一种基于语境相似度的中文分词一致性检验方法.首先利用词法和句法层面的特征,设计基于构词、词性和依存句法的分类规则,再使用预训练词向量,对不一致字串所在语境的语义信息进行编码,通过语境间的语义相似度对不一致字串进行分类.在人工构建的36万字分词语料库中进行分词一致性检验,结果表明该方法能够有效地提高中文分词一致性检验的准确率.进一步地,使用3种主流中文分词模型在修正一致性后的分词语料中重新训练和测试,结果表明该方法可以有效地提高分词语料库的质量…查看全部>>
刘伟;黄锴宇;余浩;黄德根
大连理工大学计算机科学与技术学院, 大连 116023大连理工大学计算机科学与技术学院, 大连 116023大连理工大学计算机科学与技术学院, 大连 116023大连理工大学计算机科学与技术学院, 大连 116023
中文分词一致性检验语料库构建语境相似度
《北京大学学报(自然科学版)》 2022 (1)
基于深度学习的句子相似度计算研究
99-105,7
国家科技创新2030—"新一代人工智能"重大项目(2020AAA0108004)和国家自然科学基金(U1936109,61672127)资助
评论