首页|期刊导航|北京大学学报(自然科学版)|基于语境相似度的中文分词一致性检验研究

基于语境相似度的中文分词一致性检验研究OA北大核心CSTPCD

Consistency Check for Chinese Word Segmentation via Contextual Similarity

中文摘要

提出一种基于语境相似度的中文分词一致性检验方法.首先利用词法和句法层面的特征,设计基于构词、词性和依存句法的分类规则,再使用预训练词向量,对不一致字串所在语境的语义信息进行编码,通过语境间的语义相似度对不一致字串进行分类.在人工构建的36万字分词语料库中进行分词一致性检验,结果表明该方法能够有效地提高中文分词一致性检验的准确率.进一步地,使用3种主流中文分词模型在修正一致性后的分词语料中重新训练和测试,结果表明该方法可以有效地提高分词语料库的质量…查看全部>>

刘伟;黄锴宇;余浩;黄德根

大连理工大学计算机科学与技术学院, 大连 116023大连理工大学计算机科学与技术学院, 大连 116023大连理工大学计算机科学与技术学院, 大连 116023大连理工大学计算机科学与技术学院, 大连 116023

中文分词一致性检验语料库构建语境相似度

《北京大学学报(自然科学版)》 2022 (1)

基于深度学习的句子相似度计算研究

99-105,7

国家科技创新2030—"新一代人工智能"重大项目(2020AAA0108004)和国家自然科学基金(U1936109,61672127)资助

10.13209/j.0479-8023.2021.099

评论

您当前未登录!去登录点击加载更多...