引入词汇信息的中文医学命名识别模型研究OA北大核心CSTPCD
医学领域文本存在大量的专业词汇,相比于通用领域更容易出现分词错误和未登录词的问题,其结果会导致上下文语义缺失,并影响命名实体识别(NER)的准确率。为了解决上述问题,本文提出了引入词汇信息的基于门控循环单元的中文医学命名实体识别模型WI-NER。首先,基于中文医学数据集的特点,描述了中文医学领域的命名实体识别的任务定义、实体位置和实体类别标签,并将模型在嵌入层对匹配专业词的字符进行特征嵌入与向量融合;其次,在上下文编码层添加词汇门控单元,利用循环神经网络的记忆与遗忘机制,自动提取实体识别所需的特征,并通过引入词汇信息和先验知识,实现了中文医学命名实体识别效果的提升;最后,对本模型在3个数据集上进行了实验验证,结果表明,本文提出的中文医学命名实体识别模型在准确率方面优于基线模型,达到了预期的医学领域特性。
陈晶;孙亚轩;邢珂萱
广东海洋大学数学与计算机学院,湛江524088燕山大学信息科学与工程学院,秦皇岛066004 河北省虚拟技术与系统集成重点实验室,秦皇岛066004燕山大学信息科学与工程学院,秦皇岛066004 河北省虚拟技术与系统集成重点实验室,秦皇岛066004
计算机与自动化
中文医学命名识别先验知识嵌入层门控单元词汇信息
《高技术通讯》 2024 (10)
P.1058-1069,12
国家自然科学基金(62172352,61871465,42306218)中央政府引导地方科技发展基金(226Z0102G,226Z0305G)河北省自然科学基金(2022203028)广东海洋大学科研启动基金(060302102304)资助项目。
评论