融合知识的文博领域低资源命名实体识别方法研究OA北大核心CSTPCD
文物数据的实体嵌套问题明显,实体边界不唯一,且文博领域已标注数据极度缺乏,导致该领域命名实体识别性能较低。针对这些问题,构建一个可用于文物命名实体识别的数据集FewRlicsData,提出一种融合知识的文博领域低资源命名实体识别方法RelicsNER。该方法将类别描述信息的语义知识融入文物文本中,使用基于跨度的方式进行解码,用于改善实体嵌套问题,并采用边界平滑的方式缓解跨度识别模型的过度自信问题。与基线模型相比,该方法在FewRlicsData数据集上的F1值有所提升,在文博领域命名实体识别任务中取得较好的性能。在公开数据集OntoNotes 4.0上的实验结果证明该方法具有较好的泛化性,同时在数据集OntoNotes 4.0和MSRA上进行小规模数据实验,性能均高于基线模型,说明所提方法适用于低资源场景。
李超;侯霞;乔秀明;
北京信息科技大学计算机学院,北京100192
计算机与自动化
文博领域命名实体识别知识融合注意力机制
《北京大学学报(自然科学版)》 2024 (001)
P.13-22 / 10
北京市自然科学基金(4224090)资助。
评论