基于RoBERTa多特征融合的棉花病虫害命名实体识别OA北大核心CSTPCD
针对棉花病虫害文本语料数据匮乏且缺少中文命名实体识别语料库,棉花病虫害实体内容复杂、类型多样且分布不均等问题,构建了包含11种类别的棉花病虫害中文实体识别语料库CDIPNER,提出了一种基于RoBERTa多特征融合的命名实体识别模型。该模型采用掩码学习能力更强的RoBERTa预训练模型进行字符级嵌入向量转换,通过BiLSTM和IDCNN模型联合抽取特征向量,分别捕捉文本的时序和空间特征,使用多头自注意力机制将抽取的特征向量进行融合,最后利用CRF算法生成预测序列。结果表明,该模型对于棉花病虫害文本中命名实体的识别精确率为96.60%,召回率为95.76%,F1值为96.18%;在ResumeNER等公开数据集上也有较好的效果。表明该模型能有效地识别棉花病虫害命名实体且具有一定的泛化能力。
李东亚;白涛;香慧敏;戴硕;王震鲁;陈珍;
新疆农业大学计算机与信息工程学院,新疆乌鲁木齐830052新疆农业大学计算机与信息工程学院,新疆乌鲁木齐830052 智能农业教育部工程研究中心,新疆乌鲁木齐830052 新疆农业信息化工程技术研究中心,新疆乌鲁木齐830052新疆科信职业技术学院,新疆乌鲁木齐830049
农业科学
棉花病虫害RoBERTa模型命名实体识别多特征融合多头注意力机制
《河南农业科学》 2024 (002)
P.152-161 / 10
科技部科技创新2030重大项目(2022ZD0115800);新疆维吾尔自治区重大科技专项(2022A02011-4);新疆维吾尔自治区高校基本科研业务费科研项目(XJEDU2022J009)。
评论