融合相似度负采样的远程监督命名实体识别方法OA北大核心CSTPCD
实体漏标是目前远程监督命名实体识别(distantly supervised named entity recognition,DS-NER)存在的一个难点问题。训练集中的漏标实体在模型训练中提供了不正确的监督信息,模型将在后续预测实体类型时更倾向于将该类实体预测为非实体,导致模型的实体识别和分类能力下降,同时影响了模型的泛化性能。针对这一问题,提出了融合实体特征相似度计算负采样命名实体识别方法。首先,通过对候选样本和标注实体样本进行相似度计算并打分;其次,以相似度得分作为依据对候选样本进行采样,采样出参与训练的样本。与随机负采样方法相比,该方法通过结合相似度计算,降低了采样到漏标实体的可能性,进而提高了训练数据的质量,从而提升了模型的性能。实验结果表明,该方法在CoNLL03、Wiki、Twitter三个数据集上与其他模型相比,比基线模型平均取得了5%左右的F_(1)值提升,证明了该方法能够有效缓解远程监督条件下实体漏标带来的命名实体识别模型性能下降的问题。
刘杨;线岩团;相艳;黄于欣;
昆明理工大学信息工程与自动化学院,昆明650500 云南省人工智能重点实验室,昆明650500
计算机与自动化
命名实体识别实体漏标远程监督负采样数据增强
《计算机应用研究》 2024 (008)
P.2322-2328 / 7
国家自然科学基金资助项目(62266028);云南重大科技专项计划课题(202202AD080003)。
评论