为上下文显式独立建模的中文实体识别方法OA北大核心CSTPCD
现有中文命名实体识别(NER)模型在公开数据集上的表现相对成熟,但有研究指出,模型过度依赖实体文本的字面特征,而上下文对实体识别的影响却未得到重视。现有的模型在简单的泛化测试中表现较差,因此本文提出显式地为上下文独立建模,令模型对上下文和实体的字面信息进行区分。为此,也提出了相应的数据增强方法用于训练模型中的上下文模块、实体字面模块和综合模块。实验结果表明,本文提出的方法在不损失测试集识别效果的情况下,明显改善了模型在不变性测试中的表现,较基准模型其失败率降低了2.3%。
陈点;曹逸轩;罗平;
智能信息处理重点实验室(中国科学院计算技术研究所),北京100190 中国科学院大学,北京100049智能信息处理重点实验室(中国科学院计算技术研究所),北京100190 鹏城实验室,深圳518066
计算机与自动化
自然语言处理中文命名实体识别(NER)上下文独立建模数据增强
《高技术通讯》 2024 (008)
P.787-797 / 11
国家重点研发计划(2022YFB2702502);国家自然科学基金(62076231,62206265);国家博士后基金(2021M703271)资助项目。
评论