|国家科技期刊平台
首页|期刊导航|计算机技术与发展|融合单词级段信息的中文医疗命名实体识别

融合单词级段信息的中文医疗命名实体识别OACSTPCD

中文摘要

中文医疗命名实体识别(Named Entity Recognition,NER)是医学领域的一项基础任务,在知识图谱等许多下游任务中起着重要的作用。常用的NER方法可分为基于词级信息和基于段级信息,已有研究表明两种信息融合能取得更好的性能。目前,词级信息和段级信息融合的方法在中文医疗NER任务中还未被充分研究,且现有的融合方法为段中的每个单词赋予相同的权重,不考虑单词的不同贡献。而医疗实体中每个单词和实体(段)有着不同的相关性,忽略这种相关性的差异将影响医疗NER的性能。基于此,通过分析中文医疗实体特性,提出了一种单词级段信息抽取方法(Word-Level Segment Information Extraction,WL-SIE)。该方法为实体中的每个单词分配一个权重矩阵集,学习单词与实体之间的关联信息,在与实体词组交互之后输出不同的单词级段信息。在CCKS2017和CMeEE中文临床NER数据集上的实验结果表明,WL-SIE方法较对比方法在F1值上提升了3%~5%,特别是在实体样本不均衡场景下和长实体识别任务上表现出了优异的性能。

王海鹏;杜方;宋丽娟;李婷;

宁夏大学信息工程学院,宁夏银川750021宁夏大学数学统计学院,宁夏银川750021

计算机与自动化

命名实体识别深度神经网络词级信息段级信息中文医疗信息处理

《计算机技术与发展》 2024 (006)

P.110-117 / 8

国家自然科学基金(62062058);宁夏自然科学基金(2021AAC03118,2021AAC03022);宁夏重点研发项目(2019BEB04023,2021BEE03013)。

10.20165/j.cnki.ISSN1673-629X.2024.0091

评论