|国家科技期刊平台
首页|期刊导航|高技术通讯|利用类型语义表示进行标签降噪的细粒度实体分类

利用类型语义表示进行标签降噪的细粒度实体分类OA北大核心CSTPCD

中文摘要

细粒度实体分类(FET)任务的训练数据往往利用已有知识库中的知识通过远程监督方法进行生成,生成过程中不可避免地引入多余的噪音标签。现有考虑训练数据中噪音问题的工作通常只建模训练数据和标注类型的概率分布,对细粒度类型的语义信息学习不足,造成在标注了多个细粒度类型的训练数据上选择了与实体上下文不相关的类型进行模型的学习。本文提出一种利用细粒度类型的语义表示进行标签降噪的细粒度实体分类方法。首先利用训练数据中具有唯一细粒度类型路径的数据学习一部分细粒度类型的表示,进而结合细粒度类型间的关系信息学习其他细粒度类型的表示;其次在标注了细粒度类型的训练数据中选取与实体上下文的语义信息最相似的细粒度类型为目标类型,从数据集中选择Top-K个相似数据进行细粒度类型语义信息的聚合;最后在聚合信息上学习最终的细粒度实体分类模型。实验结果表明,该方法可以有效地从标注了细粒度类型的训练数据中选出与实体上下文的语义信息最相符的细粒度类型,达到提升细粒度实体分类准确率的效果。

席鹏弼;靳小龙;白硕;程学旗;

中国科学院计算技术研究所网络数据科学与技术重点实验室,北京100190 中国科学院大学计算机科学与技术学院,北京100408恒生电子股份有限公司,杭州310053

计算机与自动化

实体分类细粒度类型多标签降噪多标签分类

《高技术通讯》 2024 (002)

P.111-122 / 12

国家自然科学基金(U1911401,61772501,62002341,U1836206)资助项目。

10.3772/j.issn.1002-0470.2024.02.001

评论