|国家科技期刊平台
首页|期刊导航|北京大学学报(自然科学版)|融合知识的文博领域低资源命名实体识别方法研究

融合知识的文博领域低资源命名实体识别方法研究OA北大核心CSTPCD

中文摘要

文物数据的实体嵌套问题明显,实体边界不唯一,且文博领域已标注数据极度缺乏,导致该领域命名实体识别性能较低。针对这些问题,构建一个可用于文物命名实体识别的数据集FewRlicsData,提出一种融合知识的文博领域低资源命名实体识别方法RelicsNER。该方法将类别描述信息的语义知识融入文物文本中,使用基于跨度的方式进行解码,用于改善实体嵌套问题,并采用边界平滑的方式缓解跨度识别模型的过度自信问题。与基线模型相比,该方法在FewRlicsData数据集上的F1值有所提升,在文博领域命名实体识别任务中取得较好的性能。在公开数据集OntoNotes 4.0上的实验结果证明该方法具有较好的泛化性,同时在数据集OntoNotes 4.0和MSRA上进行小规模数据实验,性能均高于基线模型,说明所提方法适用于低资源场景。

李超;侯霞;乔秀明;

北京信息科技大学计算机学院,北京100192

计算机与自动化

文博领域命名实体识别知识融合注意力机制

《北京大学学报(自然科学版)》 2024 (001)

P.13-22 / 10

北京市自然科学基金(4224090)资助。

10.13209/j.0479-8023.2023.070

评论