首页|期刊导航|天津科技大学学报|基于RBAC模型的中文医疗命名实体识别

基于RBAC模型的中文医疗命名实体识别OA

中文摘要

中文医疗命名实体识别旨在从非结构化数据中抽取结构化实体,目前的主流研究都使用了大量的训练数据。针对中文医疗命名实体识别训练数据匮乏的问题,提出了基于联合分词的RBAC(RoBERTa-BiGRU-Attention-CRF)模型和基于语义搜索的命名实体识别数据增强方法。首先利用预训练模型和双向门控循环单元(BiGRU)提取文本的深度双向语义表示,再将该语义表示分别送入分词模块和命名实体识别模块。分词模块利用条件随机场(CRF)得到分词信息。命名实体识别模块利用BiGRU与多头注意力得到混合语义表示,再送入CRF得到命名实体识别的标签序列。在CCKS2019中文电子病历数据集上的实验结果表明,该方法在数据量较少的情况下F_(1)达到90.5%,证明了该方法的有效性。

张斌;赵婷婷;张碧霞;陈亚瑞;王嫄

天津科技大学人工智能学院,天津300457天津科技大学人工智能学院,天津300457天津科技大学人工智能学院,天津300457天津科技大学人工智能学院,天津300457天津科技大学人工智能学院,天津300457

计算机与自动化

多任务学习预训练模型双向门控循环单元多头注意力条件随机场数据增强

《天津科技大学学报》 2024 (5)

P.56-62,7

国家自然科学基金项目(61976156)天津市企业科技特派员项目(20YDTPJC00560)。

10.13364/j.issn.1672-6510.20230180

评论